MoCha:Meta在會說話的角色合成方面的獲得電影級飛躍

MoCha

由於 Runway 的 Gen-4、OpenAI 的 Sora 以及 ByteDance 的一些令人印象深刻的影片合成工作,多模態空間正在迅速擴大,Meta AI 加入這一行列只是時間問題。現在,他們已經加入了。Meta 釋出了一篇研究論文,並提供了他們的新影片生成模型 MoCha(電影角色動畫生成器)的演示示例。但它如何在這個日益擁擠的領域中脫穎而出?它與 Sora、Pika 或其他當前的人工智慧影片生成模型有何不同?更重要的是,作為創作者、開發者或研究者,如何利用它為自己謀福利?我們將在本篇文章中探討這些問題。讓我們一起來解碼 Meta 的 MoCha。

什麼是MoCha?

MoCha(Movie Character Animator 的縮寫)是一個端到端模型,它接受兩個輸入:

  • 描述角色、場景和動作的自然語言提示
  • 一個語音音訊片段,用於驅動唇部同步、情感和手勢

然後,它輸出電影質量的影片,沒有參考影像、沒有關鍵點、沒有額外的控制訊號。

只有提示+語音

Meta MoCha

Source: Meta Research Paper

這聽起來似乎很簡單,但在引擎蓋下,MoCha 正在解決一個多層次的問題:將語音與面部動作同步、生成全身手勢、保持角色一致性,甚至管理多個發言人之間的回合制對話。

為什麼會說話的角色很重要?

現有的大多數影片生成工具要麼專注於逼真的環境(如 Pika、Sora),要麼做表情有限的面部動畫(如 SadTalker 或 Hallo3)。

但講故事,尤其是講電影故事,要求更高。

它需要角色自然地移動、展現情感、相互回應,並以連貫的方式棲息在環境中。這正是 MoCha 的用武之地。它不僅僅是同步嘴唇,而是讓場景栩栩如生

MoCha的主要功能

以下是我在閱讀了論文並檢視了基準測試後的突出感受:

端到端生成,沒有柺杖

MoCha 不依賴骨架、關鍵點或三維人臉模型,這一點與許多其他軟體不同。這意味著不需要依賴手動策劃的先驗或手工控制。相反,一切都直接源於文字和語音。這使得它

  • 可跨資料擴充套件
  • 更易於推廣
  • 更適應各種拍攝型別

語音影片視窗注意事項

MoCha 採用視窗交叉關注機制並行生成所有影片幀

MoCha 採用視窗交叉關注機制並行生成所有影片幀,其中每個影片標記關注一個本地音訊標記視窗,以提高對齊和唇音同步質量。來源:Meta Research Paper

這是技術亮點之一。並行生成完整影片往往會破壞語音對齊。MoCha 透過巧妙的關注技巧解決了這一問題:每個影片標記只關注音訊標記的區域性視窗,剛好可以捕捉到音素級的時序,而不會被整個序列所幹擾。

結果 緊密的唇音同步,不會出現幀錯位。

語音和文字聯合訓練

在訓練過程中,MoCha 結合了 80% 的語音標記影片和 20% 的純文字影片。它甚至用零向量的語音標記來代替 T2V 樣本。這聽起來像是一種訓練技巧,但其實非常聰明:即使在沒有音訊的情況下,它也能讓 MoCha 更廣泛地理解動作,同時保持唇語同步學習。

多角色回合制對話

這部分讓我大吃一驚。MoCha 不僅能生成一個角色的對話,還支援不同鏡頭中的多角色互動

多角色回合制對話

Source: Meta Research Paper

怎麼做?透過結構化提示:

  • 首先,定義每個角色(如 Person1、Person2)
  • 然後使用這些標籤描述每個片段

這樣,即使他們在不同的鏡頭中再次出現,模型也能追蹤到誰是誰。

使用 Meta 的 MoCha 生成的影片示例

他們在這裡上傳了很多示例。我將挑選其中最好的幾個:

情緒控制

動作控制

多角色

多角色對話與回合制對話

MoCha-Bench:專為會說話的角色設計的基準平臺

在推出模型的同時,Meta 還推出了 MoCha-Bench,這是一個專門用於評估會說話角色生成的基準。它不僅僅是一個資料集,還反映了團隊對這項任務的認真態度。現有的大多數基準都是為一般影片或面部動畫任務設計的。而 MoCha-Bench 正是針對 MoCha 所要解決的挑戰而量身定製的:唇部同步精度、表情質量、全身運動和多角色互動。主要元件

  • 150 個人工編輯的示例
  • 每個示例都包含
    • 一個結構化文字提示
    • 一個語音片段
    • 特寫鏡頭和中景鏡頭的評價片段
  • 場景包括
    • 憤怒、喜悅、驚訝等情緒
    • 烹飪、散步、直播等活動
    • 不同的鏡頭取景和轉換

該團隊還進一步使用 LLaMA 3 豐富了提示內容,使其比一般資料集更具表現力和多樣性。

評估方法

他們不僅進行了自動度量,還進行了全面的人工評估。每段影片都從五個方面進行評分:

  • 唇語同步質量
  • 面部表情自然度
  • 動作逼真度
  • 提示對齊
  • 視覺質量

此外,他們還使用主觀評分以及 Sync-C 和 Sync-D 等同步指標對 MoCha 與 SadTalker、AniPortrait 和 Hallo3 進行了基準測試。這一基準為評估語音影片模型設定了新的標準,尤其是對於角色需要表演而不僅僅是說話的使用案例。如果您正在或計劃從事這一領域的工作,MoCha-Bench 將為您提供“好”的標準。

模型架構

如果你對技術方面感到好奇,這裡有一個關於 MoCha 工作原理的簡化演示:

  • 文字 → 透過轉換器編碼,捕捉場景語義。
  • 語音→ 透過 Wav2Vec2 處理,然後透過單層 MLP 來匹配影片標記尺寸。
  • 影片→ 透過 3D VAE 編碼,將時間和空間解析度壓縮為潛在影片標記。
  • 擴散變換器(DiT) → 對影片標記進行自我關注,然後與文字和語音輸入(按此順序)進行交叉關注。

與自迴歸影片模型不同,MoCha 是並行生成所有幀的。但得益於其語音影片視窗注意功能,每一幀都能與音訊的相關部分保持緊密同步,從而實現流暢、逼真的發音,而不會出現漂移。

更多詳情,請點選此處

訓練細節

MoCha 採用多階段訓練管道:

MoCha 採用多階段訓練管道

Source: Meta Research Paper

  • 階段 0:純文字影片訓練(特寫鏡頭)
  • 階段 1:新增帶有語音標籤的特寫影片
  • 階段 2-3:引入中景鏡頭、全身手勢和多字元片段

每個階段將之前的資料減少一半,同時逐步提高任務難度。

這種方法有助於模型在處理更復雜的肢體動作之前,首先掌握唇部同步(語音預測性最強)。

基準和效能

讓我們來看看該模型的基準和效能:

MoCha 基準和效能

該圖顯示了 MoCha 和三個基準模型(Hallo3、SadTalker、AniPortrait)在唇部同步、表情、動作、文字對齊和視覺質量五個方面的人類評估得分。MoCha 的得分始終高於 3.7,優於所有基線模型。SadTalker 和 AniPortrait 在動作自然度方面得分最低,這是因為它們只有有限的頭部動作。由於不支援文字輸入,這兩個軟體的文字對齊度標記為不適用。總的來說,MoCha 的輸出在所有類別中都最接近電影的真實感。

同步精度

以下模型透過兩個引數進行了測試:

  • 同步-C:越高越好(顯示嘴唇跟隨音訊的程度)
  • 同步-D:越低越好(顯示不匹配的程度)
模型 Sync-C (↑) Sync-D (↓)
MoCha 6.037 8.103
Hallo3 4.866 8.963
SadTalker 4.727 9.239
AniPortrait 1.740 11.383

MoCha 的唇部同步最準確,音訊和嘴部動作之間的混淆最少。

去掉關鍵特徵會怎樣?

研究人員還測試瞭如果移除模型的某些重要部分會發生什麼情況。

版本 Sync-C Sync-D
完整版MoCha 6.037 8.103
無聯合訓練 5.659 8.435
不關注視窗 5.103 8.851
  • 聯合訓練(在訓練過程中同時使用語音和文字影片)有助於模型理解更多型別的場景。
  • 視窗關注可以保持唇語同步,防止模型偏離同步。

對Meta’s MoCha的看法

雖然目前還沒有公開的演示或 GitHub 倉庫,但官方專案頁面上分享的影片確實令人印象深刻。尤其令我印象深刻的是

  • 手勢與語音語調的一致性
  • 模型能很好地處理前後對話
  • 中景鏡頭中逼真的手部動作和攝像機動態效果

如果將來這些功能可以透過應用程式介面(API)或開放模型實現,那麼它將為電影製作人、教育工作者、廣告商和遊戲開發者帶來一大批工具。

小結

在過去的一年裡,我們看到了人工智慧生成內容的重大飛躍–從影像擴散模型到大型語言代理。但是,MoCha 帶來了新的東西:從指令碼到螢幕的生成更近了一步。

無需關鍵幀。沒有手動動畫。只有自然語言和聲音。

如果 MoCha 未來的迭代版本能在此基礎上增加更長的場景、背景元素、情感動態和即時響應能力,那麼它將改變各行各業建立內容的方式。就目前而言,這是一項了不起的研究成果。絕對值得密切關注。

By the way,Meta 釋出的這篇關於 Mocha 的研究論文參與者名單中,幾乎清一色的華人姓名……牛逼普拉斯!

評論留言