想靠 YouTube 赚钱？这种副业模式最适合普通人！AI制作DJ音乐视频——手把手教你全流程！

YouTube赚钱4个月前更新 windy有风

73 0 5

大家注意到没，最近YouTube上有一种视频起号非常快，流量也大——AI生成的音乐视频，简直刷爆点击率，轻轻松松就能拿到百万播放量！而且最牛的是，这玩意儿做起来超简单，只需要用AI，就能做出看起来专业级的MV。

几年前，要做这种视频，你得花上几千上万、组个大团队，还得忙好几周。但现在，借助AI工具，你几小时就能搞定所有步骤。

举个例子，有个频道才开了几个月，订阅者就破十万，视频播放量直接上百万——就像这支视频，播放量超过XX万。据Social Blade的数据，他们每个月大概能赚XX万美元，很厉害！

这波潮流还刚刚起步，这就意味着机会巨大，只要你抓住了，就能快速涨粉、赚钱。学会这套流程后，你可以把视频分享到YouTube、TikTok、Instagram等平台，可以吸粉无数。

本期用到的工具：

▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬

►向有风咨询，加入我的知识星球圈子：
➜https://t.zsxq.com/16QP9JP8b

►本期视频文字信息（所有提示词Prompt）
➜ https://aiyoufeng.com/ai-music‎

► elevenlabs 最好用的AI配音
➜https://bit.ly/47UBlUv

►自动化直播新选择！StreamingBots
➜https://bit.ly/3xOAjw2

►Suno AI音乐生成
➜https://suno.com/invite/@incomparablekeyboard265

►Mubert AI生成音乐（最长可生成25分钟）
➜https://bit.ly/3SxiE3O

► Epidemic Sound 好听的YouTube背景音乐
➜https://bit.ly/3RrPlPq

►Cgdream Ai 照片生成
➜https://cgdream.ai/

► Leonardo AI图片生成
➜https://bit.ly/3yTr0LO

►midjourney AI图片生成
➜https://www.midjourney.com/

►chatGPT
➜https://chatgpt.com/

► 办一张国外银行卡（可用于ChatGPT会员升级）
➜https://yeka.ai/i/19YC7OIQ

➜升级到GPT4会员教程：
https://www.youtube.com/watch?v=ZZnwaadhfqM&t=3s

► midjourney+ChatGPT 账号合租平台、账号购买
➜https://nf.video/C1dxn

►可灵AI
➜https://klingai.kuaishou.com/

►kittl设计封面
➜https://kittl.pxf.io/OrWBVZ

►Capcut 剪映英文版i
➜https://bit.ly/3Lrz2P4

第一份提示词Prompt（生成音乐）

你现在的任务是帮助用户设计高质量的提示词，供SUNO AI（一款文本转音乐工具）使用。它能把你提供的音乐风格描述和歌词结构自动生成一段音乐。你需要熟悉下面所有要求，根据需要生成、调整和优化提示词。

基本说明

SUNO AI 需要至少两个输入项：

风格提示：描述音乐风格和流派，最多200个字；
歌词提示：说明歌曲的结构和歌词内容，最多2000个字。

风格提示（Style Prompt）

简洁明了：用最简单的词概括你想要的音乐风格。
关键词要点：写上流派、氛围、乐器（如果有的话）和演唱风格。
不要写太多细节：细节太多反而会影响生成效果。
用逗号分隔：例如写成“梦幻氛围, 慢节奏, 女声低语”，这样每个词语独立，否则系统会把所有词连在一起理解。

歌词提示（Lyrics Prompt）

分段标识：歌词中可以加入类似 [主歌]、[副歌]、[前副歌]、[桥段]、[尾奏]、[器乐间奏] 等标记，帮助系统理解歌曲结构。
各部分建议：
- [主歌]：节奏感强，氛围相对低调；
- [副歌]：旋律优美、容易上口，是整首歌的亮点；
- [前副歌]：起到衔接作用，引入副歌；
- [桥段]、[间奏]、[尾奏]：可选，用来增加变化；
- 纯器乐部分：只用来播放音乐，无歌词。
生成后的修改：生成后可进一步精简歌词，删掉废话、调整韵律和节奏，使其更符合要求。

元标签（Meta-tags）使用：

可以在歌词中加上情绪或演唱风格的提示，如 [悲伤主歌]、[欢乐副歌]、[说唱段落]、[福音合唱]；
器乐部分可以写 [器乐间奏] 或 [打击乐段]；
注意别用太多，以免它们被直接唱出来。

额外建议

简洁至上：风格提示越简短，音乐效果通常越清晰。尽量避免把太多流派混在一起或写一堆乐器。
流派和风格选择：
- 可选范围很广：如氛围音乐、电子、嘻哈、摇滚、爵士、流行、交响、世界音乐等；
- 同时记得说明想要的情绪，比如忧郁、欢快、戏剧性或梦幻般的感觉；
- 乐器描述尽量简单，比如钢琴、原声吉他、温暖的合成器音效。
提升歌词品质：
- 可以加入叙事视角、冲突和细节，让歌词更生动；
- 生成后记得再编辑一下，删掉多余的字句，利用标点或换行调整节奏，简短明了的句子往往效果更好。
纯器乐作品：
- 如果歌词提示留空，系统有时还是会自动生成唱词；
- 要想只要器乐效果，可以在风格提示中加上“纯器乐”或者写上 [器乐间奏]；
- 注意有些流派（如流行、福音）可能默认加人声，这时就需要再强调一次“纯器乐”。

声音与语言

自动识别：系统会自动判断语言，不用你特别标明。
流派影响人声：例如嘻哈一般偏向男性说唱，流行可能更偏女声，但这不绝对。
自定义描述：你可以在风格或歌词提示中写上“女声低语”、“男声旁白”、“福音合唱”等，以便更精确地控制效果。

示例提示词

风格提示：
“忧郁的氛围电子乐, 慢节奏, 柔和钢琴, 温暖合成器, 女声低语”

歌词提示：

[主歌]
走在安静的霓虹街头
旧时光的倒影在闪烁
柔软的影子轻唱着秘密摇篮曲
我追逐着那些永远没有回应的回声

[前副歌]
夜色中那遥远的温暖
仿佛一个无声的承诺

[副歌]
沉浸在温柔的音浪里
低语中迷失方向
在空旷的夜里轻轻呼吸
那逐渐消逝的记忆仍在徘徊

调整建议：

更换流派：可以把“忧郁的氛围电子乐”换成“欢快的舞曲流行”或者“情绪化的原声民谣”。
更换乐器：把“柔和钢琴, 温暖合成器”换成“原声吉他”或者“打击乐段”。
调节人声：将“女声低语”换成“男声旁白”、“福音合唱”或“说唱段落”。
修改歌词：可以自行编写，也可以增减句子或加入其它结构（如 [桥段]、[尾奏]）。

第一份（回复用的提示词Prompt）

音乐风格与氛围

氛围迷幻舞曲风格
想要那种像火人节那样热闹节日气氛

编曲与节奏

采用典型迷幻舞曲的编曲：主要有强劲的低音和明显的“掉拍”效果
开头节奏较慢、梦幻；慢慢进入充满能量的节奏；高潮时低音特别强烈，伴随掉拍；最后再回到缓慢、带点忧郁的感觉

人声风格与语言

用女声电子合成嗓音
歌词使用英语，既有“la-la”的哼唱，也穿插一些完整的句子

歌曲主题与歌词方向

以火人节为主题
歌词内容可以尽情发挥创意，不用太拘泥

歌曲结构与分段

整体结构参考下面这首曲子的格式，不过要求内容全新创作，切勿照搬：

[女声电子合成嗓音]
[开头]
Breathe in the night
Feel the energy rising

[主歌]
We glow with the flow
Beyond all control
Deep in the bassline
We find our soul

[过渡]
[器乐间奏 - 爆发段]

[副歌]
Take me higher
Lost in the fire
Take me higher
Lost in the fire

[桥段]
Bass takes control
No place to hide
Waves of euphoria
Dark meets the light

[副歌]
Take me higher
Lost in the fire
Take me higher
Lost in the fire

[结尾]
Let echoes remain
In this endless domain

整体保持典型迷幻舞曲风格，特别强调厚重的爆发段和大量低音

视角与冲突

没有特别要求，歌词内容和视角可以自由发挥创作

其他要求与限制

整体风格偏混搭，不需要太多歌词，保持迷幻舞曲的典型感觉
整个曲子的时长控制在2-3分钟左右，其他没什么特别限制

目的

我们的目标是用这段音乐制作一个音乐视频，主题围绕火人节展开

有不清楚的地方吗？

我已经提供了以上详细信息，请按照这些说明来生成适合SunO提示词。如果还有疑问或者需要进一步讨论的地方，请告诉我！

第二份提示词Prompt（生成图片）

你是一位专门为 MidJourney（文本转图像）生成详细且优化提示词的助手。你需要把下面的信息都记住，之后在创建、编辑或者定制提示词时都要参考这些要求。

基本信息

提示词结构

文字描述（文本提示）
用来定义画面的主体、风格、颜色、光影、构图等内容。
图片链接（图片提示）
在提示词前面加上图片链接，可以用来影响风格和内容。
参数
一些额外的命令，用来控制风格、尺寸、模型或者变化，通常放在最后。

文字提示（主题描述）的基本规则

简单明了：描述越简单越好。
用具体词汇：明确说明主题和想要传达的情绪。
不要太长或复杂：长篇大论容易让系统迷失重点。

关键要点包括：

主题：可以是人物、动物、场景或物品。
例子：“一只威风凛凛的狮子坐在岩石上。”
媒介：可以是摄影、绘画、插画、雕塑、像素艺术等。
例子：“一幅铅笔素描的向日葵。”
环境：室内、室外、城市、自然或奇幻世界。
例子：“一个充满霓虹灯的未来都市。”
光线：柔和光、霓虹、黄金时刻或者特殊阴影效果。
例子：“电影感的柔光效果。”
颜色：鲜艳、单色、粉彩或黑白。
例子：“鲜明的红金配色。”
氛围：神秘、愉快、暗黑或充满活力。
例子：“宁静安详的氛围。”
构图：特写、鸟瞰、肖像或广角。
例子：“一幅森林的戏剧性鸟瞰图。”

高级功能

多重提示

用“::”来组合多个概念，并可为每部分设置权重。
例子：space::2 ship（这里会更强调“space”）。
负权重可以去除某些元素：
例子：vibrant tulip fields:: red::-.5（会去掉红色郁金香）。

图片提示

在提示词开头添加图片链接，帮助影响风格和内容。
例子：/imagine prompt [URL] 一个夜晚的赛博朋克城市。

参数说明

宽高比：--ar <宽>:<高>（例如：--ar 16:9）。
混乱度：--chaos <0–100>，数值越高生成效果越随机。
风格化：--s <0–1000>，增强艺术效果。
奇异度：--w <0–3000>，让画面显得更实验、更不寻常。
排除元素：--no <对象>，去掉不想要的部分。
模型版本：--v <版本>（例如：--v 6）。

具体功能和调整

变化模式：
- 高变化：生成的图片差异大；
- 低变化：差异小，更注重细节。
- 可用 Remix 模式在变化中调整提示词。
风格参考：
- 使用 --sref <URL> 调用特定风格。
  例子：/imagine prompt 一辆未来感汽车 --sref [URL]。
- 用 --sw <0–1000> 控制风格的强弱。
角色参考：
- 用 --cref <URL> 保证不同场景中的角色一致；
- 结合 --cw <0–100> 调整关注区域（脸部或整体）。

提示词技巧

简短提示：让 MidJourney 更有创意，但控制力较弱。
详细提示：控制更精准，但可能减少随机性。
用词讲究：用“庞大”代替“大”，能更好地传达细节。
重复多次：用 --repeat <1–40> 以获得稳定效果。

参数组合最佳实践

艺术控制：例如结合 --stylize 500 和 --weird 250，能产生既美观又独特的效果。
清晰图片：混乱度设低（--chaos 0–10）能保证图片质量稳定。
高级美感：用 --style raw 可关闭 MidJourney 自动美化功能。

示例提示词

简单版：
/imagine prompt 一道鲜艳的彩虹映衬在平静的海洋上 --ar 16:9
高级版：
/imagine prompt 一个夜晚的赛博朋克城市，有飞行汽车和湿漉街道上的霓虹反射 --ar 16:9 --chaos 25 --stylize 750
实验版：
/imagine prompt 一幅超现实的沙漠中融化的时钟画作 --s 500 --w 1000

拍摄角度与镜头类型

常见拍摄镜头

特写
镜头靠得很近，主要拍摄头部和脖子，突出面部细节和表情。
半特写
稍微拉远点，从胸部以上拍摄，既能看清面部也展示部分背景。
超特写
极度靠近，专注于眼睛、手部等局部细节，效果冲击力十足。
中景
从腰部以上拍摄，既展示人物也能融入环境，增加情境感。
西部风格特写
镜头从膝盖以上拍摄，适合展示配饰或其他细节（这种镜头在西部电影中比较常见）。
全身镜头
从头到脚完整展现人物，构成完整的视觉故事。

掌握拍摄角度

低角度拍摄
摄像机低于眼睛向上拍，能让主题看起来更高大有气势。
高角度拍摄
从上往下拍，主题显得较小、脆弱，适合制造孤立感和情感层次。
广角拍摄
拍摄范围广，适合展现大场景或风景。
俯视拍摄
从正上方看下去，可以捕捉平时忽略的地面细节。
鸟瞰视角
类似俯视，但更像从空中俯瞰，带来全新角度。

记住，选对拍摄角度能让一张照片从平凡变得不凡！

其他拍摄角度和镜头

荷兰式倾斜镜头
把摄像机倾斜，制造出一点让人眼花缭乱的效果。
第一视角拍摄
用第一人称视角，让观众仿佛亲历现场，特别适合动态场景。
自拍
虽然不算主流，但自拍结合不同角度也能产生动感效果。

镜头的影响

不同的镜头会极大影响照片效果：

广角镜头：适合拍摄大范围景色。
鱼眼镜头：制造出球面变形效果，适合独特构图。
微距镜头：专门拍细节，无论是人物还是动物都能捕捉到精致的细节。
移轴镜头：能制造出微缩效果，非常适合风景或城市景观。

风景拍摄技巧

俯视、鸟瞰与航拍：从高处捕捉宽广景色，展示大自然的壮丽。
低角度拍摄：把摄像机放在地上，突出前景的纹理和植被。
低角度向上拍摄：拍摄时向上仰望，可以把自己也融入广阔的背景中。
全景拼接：多张图片拼接成全景，展现极宽广的视野。

当你开始用 MidJourney V6 创作时，合理搭配拍摄方向、镜头类型和角度，能让你的作品更上一层楼。

关于音乐视频的图片制作

我们将一起为一个音乐视频制作图片，视频内容主要展示参加火人节的漂亮女性。重点放在那些穿着典型火人节服装的美女上，这部分也欢迎大家发挥创意。具体来说，我们需要以下三类照片：

活动环境照
展示火人节现场的氛围，让观众仿佛身临其境。
全身美女照
展示各种类型的女性穿着典型火人节服装，要求全身入镜，并且背景中一定要能看到火人节的场景。
DJ台及乐器演奏照
展示一些女性在 DJ 台后面以及其他女性演奏乐器的场景，这部分可以充分发挥创意，不过背景同样需要体现火人节的元素。

最后，请把所有与音乐视频图片制作相关的问题都问清楚，如果有任何不明白的地方，也请一并提问。
请将所有问题逐条列出来。

第二份提示词Prompt（回复模板）

活动环境和时间：

活动场景安排在白天。

环境元素：

要展现出火人节特有的现场氛围和元素，不过具体怎么表现可以充分发挥你的创意。

服装风格和多样性：

服装方面可以尝试未来感、部落风和金属质感的搭配；
多种风格的服装都可以尝试，创意发挥空间很大。

照片构图：

照片里一定要能完整展示美女的全身。

每张照片的人数：

每张图片中人物数量可以控制在1到3个，不论单人还是多人都行。

DJ和乐器表演场景：

这部分建议大胆创意，比如可以设想美女在燃烧的鼓组上表演（鼓组冒出火焰），或者演奏着燃烧的电吉他等，都能营造出震撼效果。这里完全由你自由发挥。

氛围和光线：

整体氛围可以多样化，但所有照片都要保持统一风格；光线和整体氛围可以自由组合，只要最后风格一致即可。

脸部展示和配饰：

脸部和配饰方面可以是各种风格的混搭，发挥你的想象力。

色调：

色彩搭配上也可以随意创作，不过要确保所有照片的风格保持一致。

整体一致性：

最终这些图片在音乐视频里要无缝衔接，整体风格统一。

其他具体要求：

为这三种不同的照片类型，每种要给出8个不同的提示词。
请直接把提示词写在普通文本中，不要用“SQL”窗口格式。

关于 MidJourney 的补充说明：

虽然输入“全身照”要求，但 MidJourney 常常只显示半身，所以我们需要在提示词中额外说明鞋子的细节，比如注明“赤脚”或“穿凉鞋”，以确保能拍到全身。
每个提示词前必须加上 “A Cinnematic Photo of” 这个短语，以确保图片质量；同时在提示词结尾添加“hyper-realistic, 4k, highly detailed”等描述词。
请始终记住之前提供的信息，并根据聊天内容加入合适的参数，尽情发挥创意。
每个提示词中都必须加入“background at the Burning Man event”（背景在火人节现场）。当出现“women”这个词时，务必在前面加上“beautiful”，例如“beautiful women”。
提示词尽可能详细，因为越精确的描述能带来更好的生成效果。

请将所有与音乐视频图片制作相关的问题都问清楚，如果有任何不明白的地方，也请一并提问。
请逐条列出你需要问的问题。

第二份提示词Prompt（回复修正）

全身美女照（8个提示词）：重新生成一下，如下要求
在最后加上参数：—no naked boobs 避免祼体
再把bra 换成 outfit

第三份提示词Prompt（生成相似的照片）

请先用英文详细描述一下这张照片的细节，然后基于这张照片编写一个 Midjourney 提示词

第四份提示词Prompt（可灵AI 生成视频）

你是一位专门为 Kling AI（图像转视频、文本转视频）生成高质量提示词和使用说明的助手。你得把下面这些信息都记在心里，之后在创建或者定制提示词时都要参考这些内容。

关于 Kling AI 的基本信息

Kling AI 是什么？
Kling AI 是一款能把静态图片“活”起来，或者直接根据文字生成视频的 AI 工具。它可以精确控制相机的移动、关键帧和各种风格变化。你可以用它的标准模式（简单快速）也可以用专业模式（详细调控）。

主要功能和模式：

图片转视频
- 把一张图片制作成流畅的动画。
- 不仅能做一些简单的平移、缩放，还能做复杂的动画效果。
文本转视频
- 根据文字描述场景、相机运动和情绪。
- 比如：“一个未来感十足的都市，有飞行汽车和闪烁的霓虹灯，相机缓缓拉近。”
相机运动
- 定义平移、缩放、旋转等动作。
- 例如：“相机慢慢从左到右移动，同时略微向上倾斜。”
风格与氛围
- 设定画面的色调、光影和细节。
- 例如：“柔和的金色光线、鲜艳的色彩，充满电影感。”

提示词的结构

一个 Kling AI 的提示词通常包含以下几个部分：

文字描述：说明画面上要展示什么（场景、氛围、元素等）。
相机运动：描述相机如何移动，比如平移、缩放、旋转或者组合起来的运动。
风格：讲清楚色彩搭配、光影、纹理和其他视觉特效。

示例提示词

简单版：
“一个宁静的山水画面，有缓缓流淌的河流，相机从左向右平移，柔和的环境光。”

高级版：
“一座隐藏在密林中的古庙，相机先用宽景拍摄，然后慢慢拉近庙门，金色时光的光影配上薄雾缭绕的氛围。”

进阶功能

相机特效：
- 慢动作：可以描述为“相机以慢动作缓缓移动”。
- 360°旋转：比如“相机围绕主体旋转一整圈”。
氛围和光影：
- 用具体词汇描述，如“戏剧性光影”、“情绪化氛围”、“柔和环境光”。
视觉风格：
- 指定色彩搭配，如“单色蓝”或“彩虹鲜艳”。
- 描述纹理效果，比如“颗粒感真实”或者“光滑干净”。
提示词创作小贴士：
- 清晰准确：明确写出你想要的效果，但又别太啰嗦。
- 组合运动：例如“相机从左到右平移的同时，慢慢拉近”。
- 风格参考：比如“采用复古科幻电影风格，带颗粒质感、低饱和色调”。

接下来，我会在聊天里上传照片，你需要根据我上面提供的信息，对这些照片进行分析，然后给出详细的 Kling AI 提示词。

提示词中必须包含以下内容：

人物该怎么移动或者做什么动作；
相机应该如何移动；
人物表现出什么样的情绪。

请记住，动画时长只有 5 秒，所以相机的移动不能太多。对人物动作的描述越详细，生成的效果就越好。

可灵AI排除词：

画面走样、模糊不清、不断变形、明显颗粒感、跟描述不搭、质量太差、有噪点、长得怪怪的、手脚乱七八糟、粗糙失真、像素感太重、过于动漫化或者卡通、缺乏层次、焦点不到位、细节模糊、颜色太浓、整张图像看起来像罩了一层雾、过分变形、静止得像照片、容易出错、分辨率低、粗糙未加工、冻结状态、人体结构错误、动作显得不自然

那么，咱们就开始吧！第一步：为你的视频制作动感的背景音乐。

打开工具清单

https://aiyoufeng.com/ai-music‎

打开视频下方描述里的文章链接，里面列出了整个流程需要用到的AI工具和提示语。建议提前把所有工具都打开，方便操作。

使用 ChatGPT 定制歌词与风格复制文档里的第一个提示语，粘贴到 ChatGPT 中（注意使用最新版本，这样能获得更精准、更流畅的文本输出）。接下来，ChatGPT会问你一些问题，帮助你定制歌曲的歌词和风格。你可以自己回答，也可以直接套用我准备好的答案，打造一种轻松、氛围迷幻的风格。当然，也可以尝试嘻哈、流行等其他风格，提示语足够通用。
用 Suno AI 生成音乐接着，打开 Suno AI 的官网——这款工具可以根据文字提示生成音乐，现在绝对是市面上最强的选项之一。点击“创建”，并确保开启了自定义模式。
- 选择最新的V4版本，它能生成更高质量的曲目，风格更统一，保证你的音乐听起来专业。V4版本在免费计划中可以使用，但最多只能生成10首歌曲；之后就得升级付费计划，同时还能解锁更多高级功能。
- 将ChatGPT生成的风格提示粘贴到“音乐风格”栏，把歌词提示粘贴到“歌词”栏。给你的歌曲取个有创意又符合你风格的名字——比如，我的曲子叫“氛围迷幻火人节风”。
- 然后点击底部蓝色的“创建”按钮，Suno AI会生成两版风格和歌词一致的歌曲。
选曲与保存认真听听这两版，挑出你最喜欢的一版。点击歌曲旁边的三个小点，选择“下载音频”。记得为你的项目创建一个专门的文件夹，把下载好的音频放进去，文件整理好后，后续剪辑起来就顺畅多了。

就这么简单，几下点击下来，你就能拥有一段完全符合你创意、专业水准的背景音乐。

既然音乐搞定了，咱们就进入第二步：打造能完美衬托你音乐的炫酷画面。下面详细说下怎么做。

准备提示语先打开视频描述里的 Google 文档，复制第二个提示语。建议你开启一个全新的 ChatGPT 会话，因为一次性输入太多内容容易出错，新开个对话会更稳。把提示语粘贴进去，等待它提问。
定制画面风格ChatGPT 会问你一系列问题，涉及整体风格、色彩搭配、氛围以及服装造型等。回答时别着急，越详细越好，因为这些答案直接决定了你生成图片的风格。如果懒得思考，你也可以直接用文档里我预设好的答案。不过，为了节省时间，我们这次重点制作三种照片：
- 环境照：奠定整体氛围和场景；
- 全身照：展现人物魅力，让画面更有个性；
- 动作照：比如DJ现场或者演奏乐器的动态镜头，营造出动感与活力。每种照片都有独特作用，后期剪辑时我会详细讲解如何将它们组合成一个完整的视频。
生成图片将 ChatGPT 生成的第一个提示语复制，接着打开 Midjourney 的官网。虽然也可以用 Leonardo AI 等工具，但我的经验是 Midjourney 生成的图片质量更高。在 Midjourney 页面点击“创建”，把提示语粘贴到输入框里。注意：在我早前测试中，大部分提示语都是正常的，但有时某些词语（比如“hyper realistic”、“4K”、“highly detailed”）会被错误地加上双破折号。你需要先把这些双破折号去掉，再把这些词移到提示语末尾，作为独立参数加上去。而像“–no brand logos”或“–no text”这类参数则可以直接删除，因为这一步并不需要。这样调整后，工具就能专注于你真正想要的效果，避免错误或无关的输出。接下来，在箭头按钮旁边点开“图片设置”，将长宽比设置为 16:9（这是制作 YouTube 音乐视频的标准要求），再选择最新的模型版本（目前是 6.1）。按回车，等待生成第一张图片。
挑选与优化Midjourney 会根据提示生成四种不同风格的图片。选出你最满意的一张，然后点击图片旁边的三个小点，选择“细节增强”来提升图片质量。对每个提示都重复这个流程，就能获得一系列高质量的图片。
避免不合适的画面我发现一个常见问题是，Midjourney 有时会生成女性上半身裸露的图片，而这绝对不是我们想要的效果——既不符合视频的真实感，也容易违反 YouTube 的社区指南。解决方法很简单：在每个提示语中都加上参数 --no naked boobs，以尽量减少这种情况的出现。如果四张图片里还是有一张出现裸露，那就重新生成直到满意为止。此外，像“bikinis”（比基尼）或“bra”（胸罩）这样的词在 Midjourney 里是被限制的，用不了。不过别担心，换成“outfit”（造型）就能达到相似效果，这个小技巧我试过，非常好用。
统一风格最后，为了让所有图片风格保持一致，记得在提示框中输入你的提示语时，多注意细节，确保每次生成时的描述相同。

等你在 Midjourney 上生成图片后，挑选最中意的那张，然后点击底部的“使用此风格”（Use Select Style）。这样下一次生成图片时，就会自动套用你选中图片的风格，保证所有画面看起来协调又专业。接着，当你对某张图片满意并进行了放大处理，就可以保存啦。

只需要点击图片，然后点右上角的下载按钮，瞬间就能获得一张风格统一、高质量的图片！接下来，我要给大家介绍另一个超棒的 AI 工具——CG Dreams。它是 Midjourney 和 Leonardo AI 的一个极佳替代品，提供强大的滤镜选项，能让你对图片进行更细致的调整。

你可以在我准备的 Google 文档里找到 CG Dreams 的链接。进入页面后，按照下面步骤操作：

将你的提示语粘贴到页面右上角的设置菜单里的下方提示窗口中。
做以下调整：
- 设置图片尺寸为推荐的 16:9 比例；
- 每个提示生成四个图片变体。
点击左下角的“滤镜”（Filters）来微调图片参数。

现在好玩环节来了！

在这个项目中，我常用的滤镜有“女性幻想”和“女性写实”，另外还会加上成人分类里的三个滤镜。别担心，这些滤镜完全符合我们的需求，而且能打造出视觉上极具冲击力的专业级画面。为了避免生成带有裸露内容、违背 YouTube 指南的图片，我将其中一个滤镜的数值调到大约 0.45，这样能确保画面适合发布。

设置好滤镜后，点击右下角的“生成”按钮。为什么选择 CG Dreams 呢？因为它生成的图片通常更注重人物身形，造型更丰满，能更吸引观众的目光。

生成图片后，挑出你最喜欢的一张，然后点击图片下方的“X2”按钮，进一步放大提升画质。接下来，再给你介绍一种创造合适图片的另类方式：

打开 YouTube，找一个播放量短时间内就爆表的视频，点击进入。
利用 Vidic 工具，在右侧找到视频缩略图，点击缩略图并选择“下载缩略图”。
然后回到 ChatGPT，新开一个对话，把刚下载的缩略图粘贴进去。ChatGPT 会根据图片生成一个对应的提示语，这个提示语的结构你可以在 Google 文档中找到。
把生成的提示语复制，再粘贴到 Midjourney 中。在运行之前，仔细检查提示语，调整掉可能违反 YouTube 指南的词汇。

正如之前讨论的，Midjourney 会根据原始缩略图生成一张类似的图片。如果你希望结果更接近原图，再把相同的提示语拿到 CG Dreams 页面：在左侧的“结构”区域上传缩略图，粘贴提示语，点击“生成”。CG Dreams 能让你生成的图片效果非常接近原始图。满意后，点击图片，再点右上角的下载按钮，把图片保存下来。重复这个过程，直到你大概有 30 到 45 张图片为止。

把所有图片下载好后，把它们放到之前新建的文件夹里，并按顺序编号，方便后续剪辑时查找使用。

接下来就是下一个重要环节了：利用 Runway ML（原文提到 Cling AI，但更正为 Runway ML）为这些视觉素材添加动画效果。方法如下：

返回 Google 文档，复制第三个提示语；
新开一个 ChatGPT 会话，将提示语粘贴进去。ChatGPT 支持直接上传图片，并能生成详细的动画提示语。

图片上传后，系统生成提示语，复制好这个提示语，然后打开 Cling AI 网站。在左侧菜单里点击“AI 视频”，再在左上角选择最新的版本 1.6。注意要确保你在“图片转视频”这一模块，因为后面的操作都在这里进行。

接下来，上传你想要制作动画的图片，再把 ChatGPT 生成的提示语粘贴到对应的输入框里。然后，回到 Google 文档，复制那份负面提示语，滚动到 Cling AI 页面下方的“负面提示”窗口，把它粘贴进去。这个步骤非常关键，它能帮助你生成流畅、无误的动画。

一切设置好之后，点击“生成”按钮。每张图片都按照这个流程处理一下。如果对某个动画不满意，可以调整提示语再试，直到你满意为止。动画生成完成后，在页面右下角点击下载图标，选择“无水印下载”。把所有动画文件存到一个文件夹里，并记得给它们按顺序编号，方便后续整理。

接下来，我们进入视频制作中非常关键的一步——让人物的嘴型跟着音乐同步。这一步能让你的视频更有亮点，也更有个人特色。举个例子，我自己做的视频里就有这种对嘴同步的效果，看起来特别炫酷，绝对能让你的视频脱颖而出。有兴趣的朋友可以在评论区聊聊你们的看法。

下面说说怎么操作：

打开 CapCut，新建一个项目。
将音乐文件拖入 CapCut，然后点击蓝色的加号，把音乐加到时间轴上。
找到你想要对嘴同步的那段音乐，剪辑掉不需要的部分，留下合适的片段。剪完后，点击上方的“导出”按钮。
导出时，根据歌曲内容给文件命名，方便后续查找。记得取消视频，仅保留音频，将格式设置为 MP3，点击“导出”保存文件。

接下来回到 Cling AI 的“AI 视频”页面，选择一段适合当前音乐片段的动画。在左下角找到“Lip Sync”（对嘴同步）按钮，点击打开新窗口。

在新窗口中，点击“本地配音上传”，添加刚才导出的 MP3 文件，确认后再点击窗口下方的“对嘴同步”。就让 Cling AI 自动处理对嘴同步吧，效果绝对让你惊叹。完成后，把这个动画下载下来，保存到之前的文件夹里，并记得标清楚序号。

对每个需要对嘴同步的部分都重复这个流程。待这一环节全部完成后，我们就进入最后一步——在 CapCut 中组装整个视频。

操作如下：

打开一个全新的 CapCut 项目。
在 CapCut 的右侧点击“修改”，给你的项目命名，并设置长宽比为 16:9，帧率调整到 60fps，然后保存。
调整好设置后，将音乐文件拖入项目中，再点击蓝色的加号把音乐添加到时间轴上。
接着，在右上角的“基础”选项下点击“增强人声”，将强度调到 100，这样在视频中就只会留下歌曲的主唱部分。

这一步能让动画和歌曲的唇动完美匹配。加载完毕后，先听一下歌曲开头，挑一段跟音乐气氛相符的动画，从之前整理的文件夹中找到后，把它插入 CapCut 的第二条时间轴里。然后调整动画的位置，确保和歌曲节奏完全契合，仔细听听效果，确保人物的嘴型和歌曲同步。也可以凭感觉微调，直到满意为止。

接下来，确保动画中的内置配音和歌曲对齐、没有回声后，就说明效果不错。对所有带唇动同步的动画都按这个流程操作，每个部分都保持整齐有序。把下一段动画放到时间轴上比前一段略高一层，形成一种阶梯式的叠加效果，这一步只是为了让唇动同步更准确，后期会统一整理。

当唇动同步的部分都完成后，用没有唇动同步的动画填补其余的空白。比如，视频开头那段非常关键的空隙，就选一段视觉效果特别好的动画，把它从文件夹拖进 CapCut的指定位置。可能你会发现两段动画的衔接不够完美，不用担心，先做以下处理：

剪掉静默部分先剪去音乐开头无声的部分，再点击右上角的“速度”按钮调整动画播放速度。比如，我把速度调至 0.8。如果动画变得略长，会自动移到下一层，这没关系，后续再处理。
剪辑与叠加将播放头移到第二段或第一段动画的开始处，利用带唇动同步的动画，剪掉第一段多余的部分，再把剪掉的部分下移到下一层。这样，两段动画就能完美衔接，开头的空隙就填上了。
逐步处理接着，把播放头移到第三段动画的起始位置，剪去第二段多余部分，再将剪辑好的部分下移一层。如此反复，直到所有动画都对齐、衔接自然。

如果发现某些地方仍有较大空隙，就继续用没有唇动同步的动画填补，依次将动画拖入时间轴，直到空隙基本消失。有时最后用来填充的动画可能会稍长或稍短。如果太短，可以选择剪辑掉部分，或者用速度工具微调播放速度；注意别加得太快，避免动画显得乱糟糟的。你也可以两种方法结合使用，先略微提速，再剪掉多余部分。对所有空隙和视频尾部都按此方法处理好后，再完整预览一次整个视频，确保每个细节都没有问题。

细调完毕后，把时间轴上所有文件都选中，右键点击，选择“创建合成剪辑”，这样就能把所有素材合并成一个片段。

接下来，要加个片头。点击右上角的“文字”按钮，在时间轴上添加两段默认文本。第一段写上你的 YouTube 频道名，比如“AI 音乐视频”，调整好字号、字体和颜色（我选了霓虹绿）。第二段写上类似“Presence”这样的词，同样调整大小和颜色。把片头时长设定在大约 5 秒，然后选中这两层文本，右键选择“创建合成剪辑”。

为了让片头效果更流畅，再给这两层分别加上 1 秒的淡入和淡出效果。最后，再加一个水印，创建另一层文字，把你的频道名放在不会分散观众注意力的角落（比如右下角），延伸整个时间轴。最后，为了让结尾更有看点，再添加一个电视关机效果和一个故障音效。

这一切都完成后，点击上方蓝色的“导出”按钮，就能保存你精心制作的音乐视频啦！

你可能会问，之前说过要详细讲解三种不同类型的照片在剪辑中的运用，没错，下面我就用另一个项目举个例子，说明这三种照片如何提升你的视频效果。

第一种：环境镜头

环境镜头非常适合用来渲染氛围和场景感。用它们可以把观众带入音乐的情境中，给人一种身临其境的感觉，尤其适用于歌曲的渐进或尾声部分。虽然不是必须的，但环境镜头往往能给视频留下深刻印象，让整体视觉更吸引人。

第二种：全身镜头

这类镜头展示美丽女性的全身效果，在我们的当前视频中被大量采用。从创作者们的反馈来看，这是最受欢迎的选择，效果也很抢眼。既然你已经看过整个剪辑流程，这部分就不再多讲了。

第三种：动态镜头

动态镜头能让视频充满活力，尤其适合配合有强烈节奏和低音的音乐。在这里，我举个例子：以前的一个动态镜头项目里，正是在音乐节奏强烈的“drop”处加入了动态动画，立马让画面充满能量。剪辑这种镜头时，先分析歌曲，标记出节奏的爆发点，然后在相应位置插入动态动画。剪掉多余的部分，并加上拉出转场，能让这些瞬间显得更加有冲击力。

好了，所有步骤都讲解完毕。看完这期视频，你已经完全掌握了如何制作自己的 AI 音乐视频。如果你喜欢这个视频，请留言、点赞并订阅，我的反馈会帮助我创作出更棒的内容。

# YouTube赚钱