如何做AI电影?用自己的脸生成AI视频完整教程
以前做 AI 视频,很多人第一反应就是:“这个东西是不是特别复杂?”
但现在真的不一样了。
尤其是最近这一年,AI 视频工具的发展速度非常夸张,普通人也能开始做出以前只有电影团队才能完成的效果。
不过这里还有一个问题。
普通 AI 视频确实已经很容易做了,但如果你想让视频里面的人物,真的长得像你自己,而且还能在不同镜头里保持脸部一致性,那其实还是有一定难度的。
所以今天这篇文章,我会把我最近实测下来,一套非常稳定的 AI 数字人电影制作流程,完整分享给你。
如果你也想做:
- AI电影短片
- AI数字人视频
- 用自己的脸生成AI视频
- AI动作电影
- AI虚拟分身视频
那这一套流程,真的非常适合新手直接上手。
如果你想直接体验我这次用到的一站式 AI 视频平台,可以先注册:
这个平台基本把:
- AI人物生成
- AI图片生成
- AI视频动画
- AI电影镜头制作
全部整合在了一起。
对新手来说,会省掉很多来回切换工具的麻烦。
另外,本期视频完整提示词和文字内容,我也放在这里了:
第一步:先创建一个“AI版的自己”
这次我主要用到的平台,就是 OpenArt。
因为它最近上线的新 GPT 图像模型,在“真人写实风格”这一块,效果真的很强。
尤其适合做:
- AI数字人
- AI电影人物
- 真人分身
- AI角色一致性
进入平台之后,我们先来到 Character 模块。
提示词1:
一张写实电影感的全身人物照,画面中的@有风站在画面中央,五官清晰立体,短发,神情冷静专注,目光直视镜头。人物从头到脚完整入镜,身体微微前倾,双脚稳稳站立,呈现出警觉、随时准备行动的状态。
他穿着现代风格服装:深色战术夹克,黑色工装裤,战术靴,整体造型干练利落,具有都市战术感。双手持枪,保持稳定的低位戒备姿势,枪口略微朝前下方,动作自然专业。人物姿态沉稳,气质冷静,带有强烈的电影感和压迫感。
整体画面采用真实摄影风格,光影高级,细节丰富,服装纹理清晰,人物比例自然,构图专业。背景简洁干净,可以是轻微虚化的城市街头、仓库内部或者暗色摄影棚背景,突出人物主体。高清,高质感,写实,电影氛围。
提示词2:
一位沉着自信的女性马戏表演者站在复古又华丽的马戏场中央,穿着一套带有领班风格灵感的修身服装,加入精致的女性化剪裁,配色以深绿色和金色为主,下身是合身黑色长裤,脚穿擦得发亮的及膝长靴。她的身旁站着一只气场强大的白虎,神态平静却充满力量感,在帐篷顶部洒下的琥珀色与象牙白聚光灯下,虎纹和毛发被柔和地勾勒出来。马戏帐篷内部弥漫着轻微的舞台雾气,周围有复古表演道具、丝绒帷幕,背景中是一排排虚化的观众座位。空气中漂浮着细小尘埃,在暖光下微微闪烁。表演者轻轻将一只手伸向白虎,传达出信任、掌控与从容的气场,同时保持优雅而有压迫感的站姿。电影感灯光,浅景深,超丰富细节,照片级写实风格,戏剧化构图,85mm镜头质感,高对比,暖金色氛围。
提示词3:
一张全身人物照,画面中是一名三十多岁、接近四十岁的男性,从头到脚完整入镜。
他穿着黑色袴裤,搭配一件深红色和风上衣,衣服上带有低调的暗纹,腰间系着黑色腰带,脚上穿着足袋袜和草履凉鞋。头发向后扎成紧实的发髻,脸上干净没有胡须,肤色偏白,五官冷峻立体,神情冷静克制,带着一种沉稳又压迫感十足的气场。
他右手握着一把锋利的长刀,刀身干净利落,微微抬起,手臂自然向前伸出,姿势警觉但克制。整个人站姿自信,双脚微微分开,身体稳定,目光直视镜头,呈现出冷静、危险、极具张力的视觉效果。
整体画面采用写实摄影风格,电影感光影,细节丰富,服装纹理清晰,人物比例自然,构图专业,背景简洁干净,突出人物主体。高清,高质感,冷色与暗红色氛围,压迫感强,人物完整入镜。
提示词4:
请根据我上传的参考图片,写一段场景提示词,把画面改造成日式道场,但整体视觉风格要和我刚刚上传的参考图保持一致。
提示词5:
将画面场景改造成一个日式传统道场,室内为空旷安静的木质训练空间,地面为深色木地板,背景可见木质立柱、推拉纸门、榻榻米边缘、墙面悬挂简洁的日式卷轴或木剑架,整体空间干净克制,带有明显的东方武道氛围。整体视觉风格延续参考图的感觉:低调冷色调、电影感布光、暗背景、高级质感、强烈氛围感、写实摄影风格。光线柔和但有方向性,人物清晰突出,背景略微虚化,空间带有安静、压迫、肃穆的气质。色彩以深木色、灰蓝色、黑色为主,保持沉稳、克制、冷峻的视觉基调。画面要有高端影视海报感,真实、细腻、有层次,不要杂乱,不要卡通感,不要过于明亮,不要现代杂物,确保整体风格与参考图一致,只是把原来的空间环境替换为日式道场场景。
不要出现任何人物
提示词6:
请根据前面三张的场景,帮我生成一段AI视频生成的提示词,一个精彩的打斗场景,第4张是图表对应的顺序的名字。
提示词7:AI视频生成提示词:
以 @image3 日式道场 作为主要场景,保持昏暗、冷色调、电影感、压迫感强的视觉风格。画面开始时,道场空旷安静,深色木地板反射微弱冷光,左侧纸窗透进柔和的灰蓝色光线,墙上挂着卷轴和武器架,空气中有轻微尘雾,整体氛围肃穆、紧张。
镜头缓慢推进,@image1 的现代黑衣男子站在道场中央偏前位置,保持参考图中的黑色战术服、黑色靴子、冷静表情和警惕姿态,双手握着武器,身体微微下沉,像是在等待对手出现。随后镜头切到道场另一侧,@image2 的红衣武士从阴影中缓缓走出,保持参考图中的红色和服上衣、黑色袴裤、白袜木屐、长发后梳、手持武士刀的造型,神情冷峻,目光锐利。
两人对峙几秒,气氛安静到只听见脚步声和衣料摩擦声。突然,红衣武士率先冲刺,武士刀从侧面快速横斩,现代黑衣男子迅速后撤躲避,镜头跟随刀锋划过空气,带出强烈的运动模糊和冷光反射。黑衣男子立刻贴近反击,两人开始近距离搏斗,动作干净、快速、有力量感,但不要血腥,不要残忍画面。
打斗过程中,镜头采用电影动作片风格:低角度跟拍、快速横移、近景切换、慢动作瞬间、刀锋反光特写、脚步踏在木地板上的特写。红衣武士的动作优雅凌厉,武士刀连续挥砍,衣袖随着动作大幅摆动;黑衣男子动作更加现代、直接、实战感强,通过闪避、格挡、近身压制与快速转身反击来应对。两人的动作节奏从试探逐渐升级为激烈交锋。
中段加入一个精彩镜头:红衣武士跃步向前,刀锋从上方劈下,黑衣男子侧身闪过,刀刃擦过木柱边缘,木屑轻微飞散;镜头瞬间慢动作,冷光打在两人脸上,表情紧绷、眼神对抗强烈。随后两人再次拉开距离,在道场中央形成对峙,地面倒影映出两人的身影。
最后一段进入高潮:红衣武士快速冲刺,武士刀向前刺出,黑衣男子迎面冲上,镜头环绕两人 180 度旋转,动作在交错瞬间定格成电影海报般的画面。最终两人擦肩而过,红衣武士背对镜头缓缓收刀,黑衣男子停在另一侧,身体保持戒备姿态。画面不要表现死亡或流血,只表现高强度对决后的紧张停顿。
整体要求:保持三张参考图一致的写实摄影风格,冷色调、暗背景、强对比、电影级布光,画面质感高级,人物动作真实自然,服装和人物外貌严格参考 @image1 与 @image2,道场环境严格参考 @image3。不要卡通,不要动漫,不要夸张特效,不要血腥,不要杂乱背景,不要改变人物服装,不要出现多余人物。
镜头风格关键词:
cinematic action scene, realistic martial arts fight, Japanese dojo, dark moody lighting, cold blue-gray tone, dramatic shadows, high contrast, slow motion sword clash, dynamic camera movement, realistic choreography, intense atmosphere, film still quality, 16:9 widescreen.
进入平台之后,我们先来到 Character 模块。
然后点击 Create Character。
这里一定要选择:
Start from an Image
也就是“从照片创建角色”。
接着,你需要上传自己的照片。
这里我建议大家:
- 尽量上传不同角度的人脸照片
- 背景尽量干净
- 灯光自然
- 不要太暗
- 不要有太重滤镜
因为 AI 是否能准确识别你的脸,其实很大程度取决于照片质量。
还有一个很多人容易忽略的小细节。
如果你后面的视频,不希望角色戴眼镜、帽子或者其它脸部配饰,那你上传参考照片的时候,最好也不要带这些东西。
这样 AI 后面生成的时候,人物一致性会稳定很多。
我这里上传了 3 张自己的照片,然后把角色名字命名为 Yuri。
创建完成之后,我们就正式进入 AI 图片生成阶段。
第二步:生成电影感角色参考图
接下来,我们来到 Image 模块。
这里第一步非常重要。
就是选模型。
我这里直接选择新的 GPT Image 模型。
因为目前它在真人写实效果这方面,真的已经非常强了。
说实话,如果你以前用过一些老的 AI 图片模型,比如 Nano Banana Pro,你会明显感觉到,现在这一代模型的真实感已经完全不一样了。
模型选好之后,来到 Reference 区域。
点击 Characters。
然后把刚刚创建好的角色添加进去。
这个时候,你会看到角色已经出现在提示词上方。
这说明 AI 已经知道:
你接下来生成的图片,要使用哪个人物。
这里还有一个非常关键的技巧。
很多人 AI 人物不稳定,其实问题就出在这里。
你在提示词里面引用角色的时候,一定要用对应的角色符号。
这样 AI 才会真正把这个角色“锁定”下来。
否则它就会开始“猜”。
而 AI 一旦开始猜,人物脸部一致性基本就会崩掉。
我这里生成的第一张图,是一个穿着武士盔甲、手拿武士刀的电影角色。
画幅比例我选的是 16:9。
因为这样更有电影感。
质量我直接选择 High。
虽然会贵一点,但后面视频生成会更稳定。
最后点击 Generate。
说实话,最后出来的效果真的非常惊艳。
AI 不但保住了我的脸,而且还自动完成了:
- 武士服装
- 灯光
- 场景氛围
- 电影镜头感
整个效果已经非常接近真人电影剧照。
如果你想做这种“AI电影感人物”,我真的建议你优先试一下:
它现在已经算是目前 AI 真人电影这一块,非常强的平台之一了。
第三步:不用角色参考,也能生成超真实AI人物
这里还有一个非常有意思的技巧。
其实现在很多时候,你甚至可以不创建角色。
直接靠提示词,也一样能生成非常真实的人物。
我自己最近一直在用的一个词,就是:
photorealistic
这个词真的非常关键。
它会明显把模型往“真实照片”的方向推。
很多时候,一张普通 AI 图,和一张特别真实的 AI 图,差别可能就只是多了这一个词。
所以如果你想做:
- AI真人照片
- AI电影海报
- AI数字人
- AI角色设计
这个词建议你一定要加进去。
而且现在的 GPT Image 模型,已经可以做到:
不用参考图,也能生成非常真实的人脸皮肤纹理。
这一点其实挺夸张的。
尤其放大之后,你会发现:
- 毛孔
- 皮肤细节
- 光线反射
- 面部阴影
已经越来越接近真实摄影。
第四步:让 AI 自动帮你统一电影场景风格
现在,角色已经做好了。
但很多人做到这里,会出现一个特别严重的问题。
就是:
人物和场景根本不像在同一个世界里。
角色是电影感的。
但背景却像廉价 AI 图。
这样整个视频就会特别“假”。
所以接下来,我们需要做的事情,就是:
让整个场景风格,和人物完全统一。
而这里,我会用一个非常好用的方法。
那就是:
直接让 AI 帮我们分析图片风格。
用 Claude 自动分析电影视觉风格
这里我会暂时离开 OpenArt。
然后进入 Claude AI。
进入之后,我会把刚刚生成好的两张角色图上传进去。
第一张是我自己的武士角色。
第二张是敌方角色。
接着,我会直接告诉 Claude:
“帮我生成一个传统日式道场场景,而且视觉风格必须和我上传的两张参考图保持一致。”
这里其实非常关键。
因为 Claude 最厉害的地方之一,就是它非常擅长理解图片背后的视觉语言。
它会自动分析:
- 灯光
- 色调
- 摄影风格
- 氛围
- 镜头感
- 场景材质
然后自动帮你整理成一整段专业提示词。
说白了就是:
你不用自己去研究什么电影镜头语言。
AI 会帮你自动补全。
这一点真的能省掉非常多时间。
AI 自动生成电影级道场场景
接下来,我把 Claude 返回的提示词复制下来。
然后重新回到 OpenArt AI平台。
这一次,我们不再添加角色 Reference。
因为现在做的是“纯场景图”。
画幅比例依然选择 16:9。
质量继续 High。
因为后面所有 AI 视频动画,都会参考这张场景图。
底图质量越高,最后视频稳定性越强。
最后点击 Generate。
说实话,这一步生成出来的时候,我自己都惊了一下。
整个道场的电影感真的特别强。
障子门外面的暖色阳光透进来之后,整个木地板会形成非常漂亮的反光层次。
而且更夸张的是。
如果你放大去看:
你甚至还能看到空气中的灰尘颗粒。
这种东西,其实特别容易骗过人脑。
因为真实电影摄影里面,本来就会有这种细节。
而 AI 一旦把这些东西做出来,整个画面的真实感就会瞬间提升很多。
为什么“留白感”特别重要?
这里还有一个很多新手容易忽略的问题。
很多人做 AI 场景的时候,总喜欢疯狂往里面堆东西。
结果最后画面特别乱。
但真正高级的电影感,其实恰恰相反。
真正高级的镜头,很多时候反而特别“干净”。
你会发现:
- 场景元素不多
- 构图很克制
- 光影非常明显
- 留白很多
而这种“留白感”,其实才是电影感的关键。
这一点你去看很多真正的动作电影,都会发现特别明显。
第五步:正式进入 AI 视频生成
现在:
- 角色图
- 场景图
- 电影风格
全部都已经准备好了。
接下来,我们终于正式进入 AI 视频生成阶段。
这里我会进入 OpenArt 里的 Video 模块。
然后点击:
Text with Reference
接下来就是选择 AI 视频模型。
目前 OpenArt 里面,其实已经整合了很多主流 AI 视频模型。
比如:
- Kling
- Veo
- Seedance
但如果你是做:
- 动作电影
- 打斗镜头
- AI短片
- 运镜类视频
那我目前最推荐的,还是 Seedance 2。
因为它在:
- 镜头稳定性
- 人物动作
- 电影感
- 多镜头切换
这些方面,确实比很多模型强不少。
Seedance 2 的正确使用方式
这里第一步,就是上传参考图。
我会把:
- 两张角色图
- 一张道场场景图
全部一起上传进去。
很多人 AI 视频不稳定,核心原因其实就在这里。
因为他只上传了一张图。
但实际上:
参考信息越完整,AI 越容易稳定。
尤其是人物一致性。
这一点非常重要。
因为我们前面辛苦做的人物细节,现在都会直接被带进视频里。
而不是重新随机生成。
这也是为什么,这套工作流最后生成出来的人物,会比普通 AI 视频稳定非常多。
AI电影提示词到底怎么写?
这里还有一个超级关键的问题。
很多人 AI 视频效果差,其实根本不是模型不行。
而是提示词结构写错了。
大部分新手,都会把所有内容,全部塞进一个超长段落。
但这样 AI 其实很容易混乱。
因为它不知道:
- 什么时候切镜头
- 谁该先动
- 谁该后动
- 哪个动作更重要
所以我现在基本都会固定用一种结构。
就是:
Shot 1
Shot 2
Shot 3
直接拆镜头。
这样 AI 会更容易理解“时间顺序”。
比如:
Shot 1:角色慢慢走进道场
Shot 2:镜头切到敌人拔刀
Shot 3:双方开始高速打斗
这样整个视频逻辑会清晰很多。
而且动作镜头也会更稳定。
另外,我还会专门单独加一个 Audio 区块。
比如:
- 呼吸声
- 脚步声
- 武士刀碰撞
- 木地板摩擦声
因为 Seedance 会把“声音”和“画面”分开理解。
你单独写 Audio,它会更容易对上动作节奏。
这一点效果其实非常明显。
如果你也想测试这种电影级 AI 视频工作流,我还是非常推荐你试一下:
它现在基本已经属于“一站式 AI 电影工作流平台”了。
第六步:生成第一段 AI 动作电影镜头
现在所有参考素材都已经准备好了。
接下来,我们正式开始生成第一段 AI 视频。
这里我会把:
- 两张角色图
- 一张场景图
全部丢进 Seedance 2。
然后开始写第一段动作镜头提示词。
这里有一个特别关键的点。
就是:
你一定要在提示词里面,用对应符号去引用角色和场景。
因为这样 AI 才能真正知道:
- 谁是谁
- 谁站在哪里
- 谁应该做什么动作
否则它又会重新随机生成。
而人物脸一旦重新随机,前面辛苦建立的人物一致性就会直接崩掉。
第一段视频:AI电影开场镜头
我这里第一段视频的内容,大概是:
主角慢慢走进道场。
敌人站在远处。
整个场景充满压迫感。
时长我直接拉满到 15 秒。
因为这是目前 Seedance 单次生成支持的最长时长。
分辨率选择 1080P。
画幅继续保持 16:9。
然后点击 Generate。
说实话。
第一次看到成片的时候,我真的有点被惊到了。
尤其是人物近景。
因为很多 AI 视频模型,其实最容易翻车的地方,就是脸部特写。
镜头一拉近:
- 五官就开始变形
- 眼睛乱掉
- 脸开始漂移
- 人物忽然不像本人
但这一次。
GPT Image 2 搭配 Seedance 2,居然真的把人物脸稳住了。
而且最夸张的是。
镜头拉近之后,你甚至还能看清眉毛细节。
整个效果已经特别像真人电影镜头。
AI视频为什么容易“脸崩”?
这里我顺便讲一下原理。
因为很多人其实不知道,为什么 AI 视频的人脸特别容易坏掉。
原因很简单。
AI 视频本质上,其实是在:
“连续生成图片。”
而不是像真人摄影那样真正记录现实。
所以模型每生成一帧。
它其实都在重新“猜”。
而人脸,又是人类最敏感的部分。
所以只要:
- 眼睛差一点
- 鼻子歪一点
- 嘴巴偏一点
你马上就会感觉“不像本人”。
而这次这套工作流最强的地方,就是:
前面先用 GPT Image 把人物彻底锁死。
然后再把这些参考图丢进视频模型。
这样人物稳定性就会高很多。
第二段动作戏:让 AI 自动续接镜头
接下来,我们继续做第二段视频。
但这里的流程,会和第一段有一个非常大的区别。
这次除了:
- 两张角色图
- 一张场景图
之外。
我还会额外上传:
第一段已经生成好的视频。
为什么这样做?
因为 Seedance 可以把前一个视频,当成“续接参考”。
也就是说:
第二段视频,不再是从零开始。
而是从第一段的最后一帧,继续往后生成。
这一点特别重要。
因为它会直接影响:
- 动作连续性
- 人物站位
- 灯光方向
- 镜头节奏
- 场景氛围
如果你不加视频参考。
很多时候第二段视频就会像“重新开机”。
整个氛围完全断掉。
但现在,它会像真正电影一样自然接下去。
为什么多镜头结构特别重要?
这里还有一个特别关键的技巧。
就是:
一定要拆 Shot。
这一点真的非常重要。
很多人 AI 视频看起来特别乱,核心原因就是:
AI 根本不知道什么时候切镜头。
所以我现在基本都会固定这样写:
Shot 1
Shot 2
Shot 3
每一个 Shot 单独描述。
比如:
Shot 1:主角拔刀特写
Shot 2:敌人快速冲刺
Shot 3:双方刀剑碰撞
这样 AI 的理解会清晰很多。
而且镜头语言也会明显更像真人电影。
AI动作电影里,音频提示词也很重要
还有一个很多人会忽略的东西。
就是 Audio。
我现在基本每一个 AI 视频,都会单独写 Audio 区块。
比如:
Audio:
Heavy breathing
Footsteps on wooden floor
Katana collision
Cloth movement
因为 Seedance 会单独理解声音。
所以这样写之后。
声音会明显更贴合画面。
而不是后期随便糊一层音效。
这一点做出来之后,整个电影感会强特别多。
第二段成片效果真的非常夸张
第二段生成完成之后。
最让我震惊的,其实是人物情绪变化。
你会发现。
角色一开始很冷静。
但随着战斗开始。
他的眼神会越来越凶。
甚至到后面武士刀碰撞的时候。
整个情绪已经进入非常愤怒的状态。
重点是:
这些脸部变化,全程都保持得非常稳定。
这一点真的非常难。
因为以前很多 AI 视频模型。
只要人物一做大动作:
- 脸就开始乱变
- 表情会崩
- 五官漂移
但这一次,真的稳住了。
如果你也想做这种:
“真正像电影一样”的 AI 视频。
那我非常建议你去试一下:
它现在已经算是目前 AI 视频电影工作流里面,非常成熟的一套方案了。