由于 Runway 的 Gen-4、OpenAI 的 Sora 以及 ByteDance 的一些令人印象深刻的视频合成工作,多模态空间正在迅速扩大,Meta AI 加入这一行列只是时间问题。现在,他们已经加入了。Meta 发布了一篇研究论文,并提供了他们的新视频生成模型 MoCha(电影角色动画生成器)的演示示例。但它如何在这个日益拥挤的领域中脱颖而出?它与 Sora、Pika 或其他当前的人工智能视频生成模型有何不同?更重要的是,作为创作者、开发者或研究者,如何利用它为自己谋福利?我们将在本篇文章中探讨这些问题。让我们一起来解码 Meta 的 MoCha。
什么是MoCha?
MoCha(Movie Character Animator 的缩写)是一个端到端模型,它接受两个输入:
- 描述角色、场景和动作的自然语言提示
- 一个语音音频片段,用于驱动唇部同步、情感和手势
然后,它输出电影质量的视频,没有参考图像、没有关键点、没有额外的控制信号。
只有提示+语音
Source: Meta Research Paper
这听起来似乎很简单,但在引擎盖下,MoCha 正在解决一个多层次的问题:将语音与面部动作同步、生成全身手势、保持角色一致性,甚至管理多个发言人之间的回合制对话。
为什么会说话的角色很重要?
现有的大多数视频生成工具要么专注于逼真的环境(如 Pika、Sora),要么做表情有限的面部动画(如 SadTalker 或 Hallo3)。
但讲故事,尤其是讲电影故事,要求更高。
它需要角色自然地移动、展现情感、相互回应,并以连贯的方式栖息在环境中。这正是 MoCha 的用武之地。它不仅仅是同步嘴唇,而是让场景栩栩如生。
MoCha的主要功能
以下是我在阅读了论文并查看了基准测试后的突出感受:
端到端生成,没有拐杖
MoCha 不依赖骨架、关键点或三维人脸模型,这一点与许多其他软件不同。这意味着不需要依赖手动策划的先验或手工控制。相反,一切都直接源于文本和语音。这使得它
- 可跨数据扩展
- 更易于推广
- 更适应各种拍摄类型
语音视频窗口注意事项
MoCha 采用窗口交叉关注机制并行生成所有视频帧,其中每个视频标记关注一个本地音频标记窗口,以提高对齐和唇音同步质量。来源:Meta Research Paper
这是技术亮点之一。并行生成完整视频往往会破坏语音对齐。MoCha 通过巧妙的关注技巧解决了这一问题:每个视频标记只关注音频标记的局部窗口,刚好可以捕捉到音素级的时序,而不会被整个序列所干扰。
结果 紧密的唇音同步,不会出现帧错位。
语音和文本联合训练
在训练过程中,MoCha 结合了 80% 的语音标记视频和 20% 的纯文本视频。它甚至用零向量的语音标记来代替 T2V 样本。这听起来像是一种训练技巧,但其实非常聪明:即使在没有音频的情况下,它也能让 MoCha 更广泛地理解动作,同时保持唇语同步学习。
多角色回合制对话
这部分让我大吃一惊。MoCha 不仅能生成一个角色的对话,还支持不同镜头中的多角色互动。
Source: Meta Research Paper
怎么做?通过结构化提示:
- 首先,定义每个角色(如 Person1、Person2)
- 然后使用这些标签描述每个片段
这样,即使他们在不同的镜头中再次出现,模型也能追踪到谁是谁。
使用 Meta 的 MoCha 生成的视频示例
他们在这里上传了很多示例。我将挑选其中最好的几个:
情绪控制
动作控制
多角色
多角色对话与回合制对话
MoCha-Bench:专为会说话的角色设计的基准平台
在推出模型的同时,Meta 还推出了 MoCha-Bench,这是一个专门用于评估会说话角色生成的基准。它不仅仅是一个数据集,还反映了团队对这项任务的认真态度。现有的大多数基准都是为一般视频或面部动画任务设计的。而 MoCha-Bench 正是针对 MoCha 所要解决的挑战而量身定制的:唇部同步精度、表情质量、全身运动和多角色互动。主要组件
- 150 个人工编辑的示例
- 每个示例都包含
- 一个结构化文本提示
- 一个语音片段
- 特写镜头和中景镜头的评价片段
- 场景包括
- 愤怒、喜悦、惊讶等情绪
- 烹饪、散步、直播等活动
- 不同的镜头取景和转换
该团队还进一步使用 LLaMA 3 丰富了提示内容,使其比一般数据集更具表现力和多样性。
评估方法
他们不仅进行了自动度量,还进行了全面的人工评估。每段视频都从五个方面进行评分:
- 唇语同步质量
- 面部表情自然度
- 动作逼真度
- 提示对齐
- 视觉质量
此外,他们还使用主观评分以及 Sync-C 和 Sync-D 等同步指标对 MoCha 与 SadTalker、AniPortrait 和 Hallo3 进行了基准测试。这一基准为评估语音视频模型设定了新的标准,尤其是对于角色需要表演而不仅仅是说话的使用案例。如果您正在或计划从事这一领域的工作,MoCha-Bench 将为您提供“好”的标准。
模型架构
如果你对技术方面感到好奇,这里有一个关于 MoCha 工作原理的简化演示:
- 文本 → 通过转换器编码,捕捉场景语义。
- 语音→ 通过 Wav2Vec2 处理,然后通过单层 MLP 来匹配视频标记尺寸。
- 视频→ 通过 3D VAE 编码,将时间和空间分辨率压缩为潜在视频标记。
- 扩散变换器(DiT) → 对视频标记进行自我关注,然后与文本和语音输入(按此顺序)进行交叉关注。
与自回归视频模型不同,MoCha 是并行生成所有帧的。但得益于其语音视频窗口注意功能,每一帧都能与音频的相关部分保持紧密同步,从而实现流畅、逼真的发音,而不会出现漂移。
更多详情,请点击此处。
训练细节
MoCha 采用多阶段训练管道:
Source: Meta Research Paper
- 阶段 0:纯文字视频训练(特写镜头)
- 阶段 1:添加带有语音标签的特写视频
- 阶段 2-3:引入中景镜头、全身手势和多字符片段
每个阶段将之前的数据减少一半,同时逐步提高任务难度。
这种方法有助于模型在处理更复杂的肢体动作之前,首先掌握唇部同步(语音预测性最强)。
基准和性能
让我们来看看该模型的基准和性能:
该图显示了 MoCha 和三个基准模型(Hallo3、SadTalker、AniPortrait)在唇部同步、表情、动作、文本对齐和视觉质量五个方面的人类评估得分。MoCha 的得分始终高于 3.7,优于所有基线模型。SadTalker 和 AniPortrait 在动作自然度方面得分最低,这是因为它们只有有限的头部动作。由于不支持文本输入,这两个软件的文本对齐度标记为不适用。总的来说,MoCha 的输出在所有类别中都最接近电影的真实感。
同步精度
以下模型通过两个参数进行了测试:
- 同步-C:越高越好(显示嘴唇跟随音频的程度)
- 同步-D:越低越好(显示不匹配的程度)
模型 | Sync-C (↑) | Sync-D (↓) |
---|---|---|
MoCha | 6.037 | 8.103 |
Hallo3 | 4.866 | 8.963 |
SadTalker | 4.727 | 9.239 |
AniPortrait | 1.740 | 11.383 |
MoCha 的唇部同步最准确,音频和嘴部动作之间的混淆最少。
去掉关键特征会怎样?
研究人员还测试了如果移除模型的某些重要部分会发生什么情况。
版本 | Sync-C | Sync-D |
---|---|---|
完整版MoCha | 6.037 | 8.103 |
无联合训练 | 5.659 | 8.435 |
不关注窗口 | 5.103 | 8.851 |
- 联合训练(在训练过程中同时使用语音和文本视频)有助于模型理解更多类型的场景。
- 窗口关注可以保持唇语同步,防止模型偏离同步。
对Meta’s MoCha的看法
虽然目前还没有公开的演示或 GitHub 仓库,但官方项目页面上分享的视频确实令人印象深刻。尤其令我印象深刻的是
- 手势与语音语调的一致性
- 模型能很好地处理前后对话
- 中景镜头中逼真的手部动作和摄像机动态效果
如果将来这些功能可以通过应用程序接口(API)或开放模型实现,那么它将为电影制作人、教育工作者、广告商和游戏开发者带来一大批工具。
小结
在过去的一年里,我们看到了人工智能生成内容的重大飞跃–从图像扩散模型到大型语言代理。但是,MoCha 带来了新的东西:从脚本到屏幕的生成更近了一步。
无需关键帧。没有手动动画。只有自然语言和声音。
如果 MoCha 未来的迭代版本能在此基础上增加更长的场景、背景元素、情感动态和实时响应能力,那么它将改变各行各业创建内容的方式。就目前而言,这是一项了不起的研究成果。绝对值得密切关注。
By the way,Meta 发布的这篇关于 Mocha 的研究论文参与者名单中,几乎清一色的华人姓名……牛逼普拉斯!
评论留言