由於 Runway 的 Gen-4、OpenAI 的 Sora 以及 ByteDance 的一些令人印象深刻的影片合成工作,多模態空間正在迅速擴大,Meta AI 加入這一行列只是時間問題。現在,他們已經加入了。Meta 釋出了一篇研究論文,並提供了他們的新影片生成模型 MoCha(電影角色動畫生成器)的演示示例。但它如何在這個日益擁擠的領域中脫穎而出?它與 Sora、Pika 或其他當前的人工智慧影片生成模型有何不同?更重要的是,作為創作者、開發者或研究者,如何利用它為自己謀福利?我們將在本篇文章中探討這些問題。讓我們一起來解碼 Meta 的 MoCha。
什麼是MoCha?
MoCha(Movie Character Animator 的縮寫)是一個端到端模型,它接受兩個輸入:
- 描述角色、場景和動作的自然語言提示
- 一個語音音訊片段,用於驅動唇部同步、情感和手勢
然後,它輸出電影質量的影片,沒有參考影像、沒有關鍵點、沒有額外的控制訊號。
只有提示+語音
Source: Meta Research Paper
這聽起來似乎很簡單,但在引擎蓋下,MoCha 正在解決一個多層次的問題:將語音與面部動作同步、生成全身手勢、保持角色一致性,甚至管理多個發言人之間的回合制對話。
為什麼會說話的角色很重要?
現有的大多數影片生成工具要麼專注於逼真的環境(如 Pika、Sora),要麼做表情有限的面部動畫(如 SadTalker 或 Hallo3)。
但講故事,尤其是講電影故事,要求更高。
它需要角色自然地移動、展現情感、相互回應,並以連貫的方式棲息在環境中。這正是 MoCha 的用武之地。它不僅僅是同步嘴唇,而是讓場景栩栩如生。
MoCha的主要功能
以下是我在閱讀了論文並檢視了基準測試後的突出感受:
端到端生成,沒有柺杖
MoCha 不依賴骨架、關鍵點或三維人臉模型,這一點與許多其他軟體不同。這意味著不需要依賴手動策劃的先驗或手工控制。相反,一切都直接源於文字和語音。這使得它
- 可跨資料擴充套件
- 更易於推廣
- 更適應各種拍攝型別
語音影片視窗注意事項
MoCha 採用視窗交叉關注機制並行生成所有影片幀,其中每個影片標記關注一個本地音訊標記視窗,以提高對齊和唇音同步質量。來源:Meta Research Paper
這是技術亮點之一。並行生成完整影片往往會破壞語音對齊。MoCha 透過巧妙的關注技巧解決了這一問題:每個影片標記只關注音訊標記的區域性視窗,剛好可以捕捉到音素級的時序,而不會被整個序列所幹擾。
結果 緊密的唇音同步,不會出現幀錯位。
語音和文字聯合訓練
在訓練過程中,MoCha 結合了 80% 的語音標記影片和 20% 的純文字影片。它甚至用零向量的語音標記來代替 T2V 樣本。這聽起來像是一種訓練技巧,但其實非常聰明:即使在沒有音訊的情況下,它也能讓 MoCha 更廣泛地理解動作,同時保持唇語同步學習。
多角色回合制對話
這部分讓我大吃一驚。MoCha 不僅能生成一個角色的對話,還支援不同鏡頭中的多角色互動。
Source: Meta Research Paper
怎麼做?透過結構化提示:
- 首先,定義每個角色(如 Person1、Person2)
- 然後使用這些標籤描述每個片段
這樣,即使他們在不同的鏡頭中再次出現,模型也能追蹤到誰是誰。
使用 Meta 的 MoCha 生成的影片示例
他們在這裡上傳了很多示例。我將挑選其中最好的幾個:
情緒控制
動作控制
多角色
多角色對話與回合制對話
MoCha-Bench:專為會說話的角色設計的基準平臺
在推出模型的同時,Meta 還推出了 MoCha-Bench,這是一個專門用於評估會說話角色生成的基準。它不僅僅是一個資料集,還反映了團隊對這項任務的認真態度。現有的大多數基準都是為一般影片或面部動畫任務設計的。而 MoCha-Bench 正是針對 MoCha 所要解決的挑戰而量身定製的:唇部同步精度、表情質量、全身運動和多角色互動。主要元件
- 150 個人工編輯的示例
- 每個示例都包含
- 一個結構化文字提示
- 一個語音片段
- 特寫鏡頭和中景鏡頭的評價片段
- 場景包括
- 憤怒、喜悅、驚訝等情緒
- 烹飪、散步、直播等活動
- 不同的鏡頭取景和轉換
該團隊還進一步使用 LLaMA 3 豐富了提示內容,使其比一般資料集更具表現力和多樣性。
評估方法
他們不僅進行了自動度量,還進行了全面的人工評估。每段影片都從五個方面進行評分:
- 唇語同步質量
- 面部表情自然度
- 動作逼真度
- 提示對齊
- 視覺質量
此外,他們還使用主觀評分以及 Sync-C 和 Sync-D 等同步指標對 MoCha 與 SadTalker、AniPortrait 和 Hallo3 進行了基準測試。這一基準為評估語音影片模型設定了新的標準,尤其是對於角色需要表演而不僅僅是說話的使用案例。如果您正在或計劃從事這一領域的工作,MoCha-Bench 將為您提供“好”的標準。
模型架構
如果你對技術方面感到好奇,這裡有一個關於 MoCha 工作原理的簡化演示:
- 文字 → 透過轉換器編碼,捕捉場景語義。
- 語音→ 透過 Wav2Vec2 處理,然後透過單層 MLP 來匹配影片標記尺寸。
- 影片→ 透過 3D VAE 編碼,將時間和空間解析度壓縮為潛在影片標記。
- 擴散變換器(DiT) → 對影片標記進行自我關注,然後與文字和語音輸入(按此順序)進行交叉關注。
與自迴歸影片模型不同,MoCha 是並行生成所有幀的。但得益於其語音影片視窗注意功能,每一幀都能與音訊的相關部分保持緊密同步,從而實現流暢、逼真的發音,而不會出現漂移。
更多詳情,請點選此處。
訓練細節
MoCha 採用多階段訓練管道:
Source: Meta Research Paper
- 階段 0:純文字影片訓練(特寫鏡頭)
- 階段 1:新增帶有語音標籤的特寫影片
- 階段 2-3:引入中景鏡頭、全身手勢和多字元片段
每個階段將之前的資料減少一半,同時逐步提高任務難度。
這種方法有助於模型在處理更復雜的肢體動作之前,首先掌握唇部同步(語音預測性最強)。
基準和效能
讓我們來看看該模型的基準和效能:
該圖顯示了 MoCha 和三個基準模型(Hallo3、SadTalker、AniPortrait)在唇部同步、表情、動作、文字對齊和視覺質量五個方面的人類評估得分。MoCha 的得分始終高於 3.7,優於所有基線模型。SadTalker 和 AniPortrait 在動作自然度方面得分最低,這是因為它們只有有限的頭部動作。由於不支援文字輸入,這兩個軟體的文字對齊度標記為不適用。總的來說,MoCha 的輸出在所有類別中都最接近電影的真實感。
同步精度
以下模型透過兩個引數進行了測試:
- 同步-C:越高越好(顯示嘴唇跟隨音訊的程度)
- 同步-D:越低越好(顯示不匹配的程度)
模型 | Sync-C (↑) | Sync-D (↓) |
---|---|---|
MoCha | 6.037 | 8.103 |
Hallo3 | 4.866 | 8.963 |
SadTalker | 4.727 | 9.239 |
AniPortrait | 1.740 | 11.383 |
MoCha 的唇部同步最準確,音訊和嘴部動作之間的混淆最少。
去掉關鍵特徵會怎樣?
研究人員還測試瞭如果移除模型的某些重要部分會發生什麼情況。
版本 | Sync-C | Sync-D |
---|---|---|
完整版MoCha | 6.037 | 8.103 |
無聯合訓練 | 5.659 | 8.435 |
不關注視窗 | 5.103 | 8.851 |
- 聯合訓練(在訓練過程中同時使用語音和文字影片)有助於模型理解更多型別的場景。
- 視窗關注可以保持唇語同步,防止模型偏離同步。
對Meta’s MoCha的看法
雖然目前還沒有公開的演示或 GitHub 倉庫,但官方專案頁面上分享的影片確實令人印象深刻。尤其令我印象深刻的是
- 手勢與語音語調的一致性
- 模型能很好地處理前後對話
- 中景鏡頭中逼真的手部動作和攝像機動態效果
如果將來這些功能可以透過應用程式介面(API)或開放模型實現,那麼它將為電影製作人、教育工作者、廣告商和遊戲開發者帶來一大批工具。
小結
在過去的一年裡,我們看到了人工智慧生成內容的重大飛躍–從影像擴散模型到大型語言代理。但是,MoCha 帶來了新的東西:從指令碼到螢幕的生成更近了一步。
無需關鍵幀。沒有手動動畫。只有自然語言和聲音。
如果 MoCha 未來的迭代版本能在此基礎上增加更長的場景、背景元素、情感動態和即時響應能力,那麼它將改變各行各業建立內容的方式。就目前而言,這是一項了不起的研究成果。絕對值得密切關注。
By the way,Meta 釋出的這篇關於 Mocha 的研究論文參與者名單中,幾乎清一色的華人姓名……牛逼普拉斯!
評論留言