MoCha：Meta在會說話的角色合成方面的獲得電影級飛躍

MoCha

由於 Runway 的 Gen-4、OpenAI 的 Sora 以及 ByteDance 的一些令人印象深刻的影片合成工作，多模態空間正在迅速擴大，Meta AI 加入這一行列只是時間問題。現在，他們已經加入了。Meta 釋出了一篇研究論文，並提供了他們的新影片生成模型 MoCha（電影角色動畫生成器）的演示示例。但它如何在這個日益擁擠的領域中脫穎而出？它與 Sora、Pika 或其他當前的人工智慧影片生成模型有何不同？更重要的是，作為創作者、開發者或研究者，如何利用它為自己謀福利？我們將在本篇文章中探討這些問題。讓我們一起來解碼 Meta 的 MoCha。

什麼是MoCha？

MoCha（Movie Character Animator 的縮寫）是一個端到端模型，它接受兩個輸入：

描述角色、場景和動作的自然語言提示
一個語音音訊片段，用於驅動唇部同步、情感和手勢

然後，它輸出電影質量的影片，沒有參考影像、沒有關鍵點、沒有額外的控制訊號。

只有提示+語音

Meta MoCha

Source: Meta Research Paper

這聽起來似乎很簡單，但在引擎蓋下，MoCha 正在解決一個多層次的問題：將語音與面部動作同步、生成全身手勢、保持角色一致性，甚至管理多個發言人之間的回合制對話。

為什麼會說話的角色很重要？

現有的大多數影片生成工具要麼專注於逼真的環境（如 Pika、Sora），要麼做表情有限的面部動畫（如 SadTalker 或 Hallo3）。

但講故事，尤其是講電影故事，要求更高。

它需要角色自然地移動、展現情感、相互回應，並以連貫的方式棲息在環境中。這正是 MoCha 的用武之地。它不僅僅是同步嘴唇，而是讓場景栩栩如生。

MoCha的主要功能

以下是我在閱讀了論文並檢視了基準測試後的突出感受：

端到端生成，沒有柺杖

MoCha 不依賴骨架、關鍵點或三維人臉模型，這一點與許多其他軟體不同。這意味著不需要依賴手動策劃的先驗或手工控制。相反，一切都直接源於文字和語音。這使得它

可跨資料擴充套件
更易於推廣
更適應各種拍攝型別

語音影片視窗注意事項

MoCha 採用視窗交叉關注機制並行生成所有影片幀

MoCha 採用視窗交叉關注機制並行生成所有影片幀，其中每個影片標記關注一個本地音訊標記視窗，以提高對齊和唇音同步質量。來源：Meta Research Paper

這是技術亮點之一。並行生成完整影片往往會破壞語音對齊。MoCha 透過巧妙的關注技巧解決了這一問題：每個影片標記只關注音訊標記的區域性視窗，剛好可以捕捉到音素級的時序，而不會被整個序列所幹擾。

結果緊密的唇音同步，不會出現幀錯位。

語音和文字聯合訓練

在訓練過程中，MoCha 結合了 80% 的語音標記影片和 20% 的純文字影片。它甚至用零向量的語音標記來代替 T2V 樣本。這聽起來像是一種訓練技巧，但其實非常聰明：即使在沒有音訊的情況下，它也能讓 MoCha 更廣泛地理解動作，同時保持唇語同步學習。

多角色回合制對話

這部分讓我大吃一驚。MoCha 不僅能生成一個角色的對話，還支援不同鏡頭中的多角色互動。

多角色回合制對話

Source: Meta Research Paper

怎麼做？透過結構化提示：

首先，定義每個角色（如 Person1、Person2）
然後使用這些標籤描述每個片段

這樣，即使他們在不同的鏡頭中再次出現，模型也能追蹤到誰是誰。

使用 Meta 的 MoCha 生成的影片示例

他們在這裡上傳了很多示例。我將挑選其中最好的幾個：

情緒控制

動作控制

多角色

多角色對話與回合制對話

MoCha-Bench：專為會說話的角色設計的基準平臺

在推出模型的同時，Meta 還推出了 MoCha-Bench，這是一個專門用於評估會說話角色生成的基準。它不僅僅是一個資料集，還反映了團隊對這項任務的認真態度。現有的大多數基準都是為一般影片或面部動畫任務設計的。而 MoCha-Bench 正是針對 MoCha 所要解決的挑戰而量身定製的：唇部同步精度、表情質量、全身運動和多角色互動。主要元件

150 個人工編輯的示例
每個示例都包含
- 一個結構化文字提示
- 一個語音片段
- 特寫鏡頭和中景鏡頭的評價片段
場景包括
- 憤怒、喜悅、驚訝等情緒
- 烹飪、散步、直播等活動
- 不同的鏡頭取景和轉換

該團隊還進一步使用 LLaMA 3 豐富了提示內容，使其比一般資料集更具表現力和多樣性。

評估方法

他們不僅進行了自動度量，還進行了全面的人工評估。每段影片都從五個方面進行評分：

唇語同步質量
面部表情自然度
動作逼真度
提示對齊
視覺質量

此外，他們還使用主觀評分以及 Sync-C 和 Sync-D 等同步指標對 MoCha 與 SadTalker、AniPortrait 和 Hallo3 進行了基準測試。這一基準為評估語音影片模型設定了新的標準，尤其是對於角色需要表演而不僅僅是說話的使用案例。如果您正在或計劃從事這一領域的工作，MoCha-Bench 將為您提供“好”的標準。

模型架構

如果你對技術方面感到好奇，這裡有一個關於 MoCha 工作原理的簡化演示：

文字 → 透過轉換器編碼，捕捉場景語義。
語音→ 透過 Wav2Vec2 處理，然後透過單層 MLP 來匹配影片標記尺寸。
影片→ 透過 3D VAE 編碼，將時間和空間解析度壓縮為潛在影片標記。
擴散變換器（DiT） → 對影片標記進行自我關注，然後與文字和語音輸入（按此順序）進行交叉關注。

與自迴歸影片模型不同，MoCha 是並行生成所有幀的。但得益於其語音影片視窗注意功能，每一幀都能與音訊的相關部分保持緊密同步，從而實現流暢、逼真的發音，而不會出現漂移。

更多詳情，請點選此處。

訓練細節

MoCha 採用多階段訓練管道：

MoCha 採用多階段訓練管道

Source: Meta Research Paper

階段 0：純文字影片訓練（特寫鏡頭）
階段 1：新增帶有語音標籤的特寫影片
階段 2-3：引入中景鏡頭、全身手勢和多字元片段

每個階段將之前的資料減少一半，同時逐步提高任務難度。

這種方法有助於模型在處理更復雜的肢體動作之前，首先掌握唇部同步（語音預測性最強）。

基準和效能

讓我們來看看該模型的基準和效能：

MoCha 基準和效能

該圖顯示了 MoCha 和三個基準模型（Hallo3、SadTalker、AniPortrait）在唇部同步、表情、動作、文字對齊和視覺質量五個方面的人類評估得分。MoCha 的得分始終高於 3.7，優於所有基線模型。SadTalker 和 AniPortrait 在動作自然度方面得分最低，這是因為它們只有有限的頭部動作。由於不支援文字輸入，這兩個軟體的文字對齊度標記為不適用。總的來說，MoCha 的輸出在所有類別中都最接近電影的真實感。

同步精度

以下模型透過兩個引數進行了測試：

同步-C：越高越好（顯示嘴唇跟隨音訊的程度）
同步-D：越低越好（顯示不匹配的程度）

模型	Sync-C (↑)	Sync-D (↓)
MoCha	6.037	8.103
Hallo3	4.866	8.963
SadTalker	4.727	9.239
AniPortrait	1.740	11.383

MoCha 的唇部同步最準確，音訊和嘴部動作之間的混淆最少。

去掉關鍵特徵會怎樣？

研究人員還測試瞭如果移除模型的某些重要部分會發生什麼情況。

版本	Sync-C	Sync-D
完整版MoCha	6.037	8.103
無聯合訓練	5.659	8.435
不關注視窗	5.103	8.851

聯合訓練（在訓練過程中同時使用語音和文字影片）有助於模型理解更多型別的場景。
視窗關注可以保持唇語同步，防止模型偏離同步。

對Meta’s MoCha的看法

雖然目前還沒有公開的演示或 GitHub 倉庫，但官方專案頁面上分享的影片確實令人印象深刻。尤其令我印象深刻的是

手勢與語音語調的一致性
模型能很好地處理前後對話
中景鏡頭中逼真的手部動作和攝像機動態效果

如果將來這些功能可以透過應用程式介面（API）或開放模型實現，那麼它將為電影製作人、教育工作者、廣告商和遊戲開發者帶來一大批工具。

小結

在過去的一年裡，我們看到了人工智慧生成內容的重大飛躍–從影像擴散模型到大型語言代理。但是，MoCha 帶來了新的東西：從指令碼到螢幕的生成更近了一步。

無需關鍵幀。沒有手動動畫。只有自然語言和聲音。

如果 MoCha 未來的迭代版本能在此基礎上增加更長的場景、背景元素、情感動態和即時響應能力，那麼它將改變各行各業建立內容的方式。就目前而言，這是一項了不起的研究成果。絕對值得密切關注。

By the way，Meta 釋出的這篇關於 Mocha 的研究論文參與者名單中，幾乎清一色的華人姓名……牛逼普拉斯！

Meta MoCha 影片生成

MoCha：Meta在會說話的角色合成方面的獲得電影級飛躍

什麼是MoCha？

為什麼會說話的角色很重要？

MoCha的主要功能

使用 Meta 的 MoCha 生成的影片示例

MoCha-Bench：專為會說話的角色設計的基準平臺

模型架構

基準和效能

對Meta’s MoCha的看法

小結

評論留言

取消回覆

文章目錄

MoCha：Meta在會說話的角色合成方面的獲得電影級飛躍

什麼是MoCha？

為什麼會說話的角色很重要？

MoCha的主要功能

使用 Meta 的 MoCha 生成的影片示例

MoCha-Bench：專為會說話的角色設計的基準平臺

模型架構

基準和效能

對Meta’s MoCha的看法

小結

相關文章

評論留言

取消回覆

文章目錄