想象一下,您只有一張人物照片,卻希望看到他們在影片中栩栩如生,自然地移動和表達情感。ByteDance 的最新人工智慧模型 DreamActor-M1 可以將靜態影像轉化為動態逼真的動畫,從而實現這一願望。本文將探討 DreamActor-M1 的工作原理、技術設計以及這種強大技術所帶來的重要倫理問題。
DreamActor-M1如何工作?
Link: Source
把 DreamActor-M1 想象成數字動畫師。它利用智慧技術瞭解照片中的細節,比如你的臉部和身體。然後,它會觀看別人的移動影片(這被稱為“驅動影片”),並學習如何讓照片中的人以同樣的方式移動。這意味著它可以讓照片中的人走路、揮手,甚至跳舞,同時保持其獨特的神態和表情。
DreamActor-M1 重點解決了舊動畫模型難以解決的三大問題:
- 整體控制能力:動畫應捕捉人物的每個部分,從面部表情到全身動作。
- 多尺度適應性:無論照片是面部特寫還是全身特寫,都應能很好地表現。
- 長期一致性:影片不應在幀與幀之間“閃爍”。隨著時間的推移,動作應該看起來流暢可信。
DreamActor-M1的主要功能
DreamActor-M1 採用了 3 種先進技術:
混合引導系統
DreamActor-M1 將多種訊號結合在一起,實現了精確、富有表現力的動畫效果:
- 微妙的面部表現捕捉微表情和麵部動作。
- 三維頭部球體模擬頭部的三維方向和運動。
- 三維人體骨骼提供全身姿勢指導。
這些都是從駕駛影片中提取的,用作控制動畫輸出的條件輸入,從而實現逼真的效果。
多尺度適應性
為確保在不同影像尺寸和身體比例下的通用性:
- 該模型使用不同的輸入集進行訓練,包括以面部為中心的影片資料和全身影片資料。
- 漸進式訓練策略能適應粗略和精細尺度的運動,保持外觀的一致性。
長期時間一致性
保持外觀的長期一致性是影片生成的主要挑戰之一。DreamActor-M1 透過以下方式解決了這一問題
- 利用運動感知參考幀和互補視覺特徵。
- 不僅預測單個幀,而且預測具有全域性時間感知的序列,以防止閃爍或抖動。
讓我們來看幾個例子
這些影片展示了人工智慧生成的對話頭模型,能夠製作高度逼真的面部動畫、精確的唇部同步和自然的情感對映。利用先進的生成技術和運動資料,它是虛擬影響者、數字化身、互動式聊天機器人、遊戲和電影應用的理想選擇,可提供流暢、令人信服的類人表情。
示例 1
示例 2
DreamActor-M1結構
Link: Source
DreamActor-M1 主要由五個部分組成,它們共同將一張照片轉換成動態逼真的影片。這些部件根據其功能可分為三組:
1. 理解運動的部分
- 面部運動分支:該部分會檢視要複製的影片(稱為驅動影片),並找出面部表情,如微笑、眨眼或說話等。它將這些表情轉化為模型可以用來製作面部動畫的小塊資訊。
- 姿勢分支:該分支可跟蹤身體和頭部在 3D 中的移動方式,如轉頭、揮臂或行走。它將這些動作分解成點和角度,這樣人工智慧就知道如何在新影片中移動人的身體。
2. 理解外觀的部分
- 參考網:這部分研究輸入的照片,並將其製作成動畫。它會找出人物的長相:衣服、髮型和面部細節。它會妥善儲存這些資訊,使人物在影片的每一幀中都保持一致。
3. 製作影片的部件
- 影片生成器(擴散變換器):這是構建影片的主要引擎。它將面部動作、身體姿勢和照片外觀整合在一起,建立出流暢、逼真的影片幀。它使用一個特殊的系統,一步一步地進行微小的修改,直到最終影像看起來真實為止。
- 低解析度 UNet(訓練時使用):系統僅在模型學習階段使用該輔助工具。它可以幫助人工智慧進行練習,一開始先處理小尺寸、低質量的影像。一旦模型完成訓練,就不再需要這部分。
為何令人興奮?
這項技術對於製作電影或有趣的影片來說就像魔法一樣神奇。想象一下,電影製片人用它來創造場景,而不需要演員來完成每個動作。研究人員對 DreamActor-M1 進行了多項基準測試,發現它幾乎在所有方面都優於現有方法:
- 影像質量:它能生成更清晰、更細膩的影像,在 FID、SSIM 和 PSNR(衡量逼真度和準確度的指標)方面得分更高。
- 唇部同步:與以前的模型相比,它的動畫嘴部能更好地匹配語音。
- 穩定性:它能在各幀中保持外觀一致,不會出現閃爍或奇怪的動作。
DreamActor-M1與其他影片生成器的比較
與 DreamActor-M1 一樣,Meta 的 MoCha 也是近來大受歡迎的影像影片生成器。這兩種模式都是透過影片或運動特徵等驅動訊號,將單個輸入影像轉換成動畫。它們的共同目標都是以自然可信的方式為靜態肖像製作動畫,因此具有直接的可比性。以下是兩個模型的並排比較:
特徵 | DreamActor-M1 | MoCha |
主要目標 | 透過單張影像製作全身和麵部動畫 | 高精度面部再現 |
輸入型別 | 單張影像 + 駕駛影片 | 單一影像 + 動作提示或駕駛影片 |
面部動畫質量 | 透過流暢的唇部同步和情感對映實現高度真實感 | 高度精細的面部動作,尤其是眼睛和嘴部周圍 |
全身支援 | 是 – 包括頭部、手臂和身體姿勢 | 否– 主要集中在面部區域 |
姿勢魯棒性 | 能很好地處理較大的姿勢變化和遮擋 | 對大動作或側檢視敏感 |
運動控制方法 | 雙運動分支(面部表情 + 3D 身體姿勢) | 帶有運動感知編碼的 3D 面部呈現 |
渲染風格 | 基於擴散的全域性一致性渲染 | 專注於面部區域的高精細渲染 |
最佳應用案例 | 會說話的數字頭像、電影、角色動畫 | 面部交換、重現、情感克隆 |
雖然 DreamActor-M1 和 MoCha 擅長的領域略有不同,但它們都代表了個性化影片生成領域的巨大進步。SadTalker 和 EMO 等模型也屬於這一領域,但它們主要側重於面部表情,有時會犧牲動作的流暢性。HoloTalk 是另一種新興模式,具有很高的唇部同步精度,但不能像 DreamActor-M1 那樣提供全身控制。相比之下,DreamActor-M1 集面部逼真度、肢體動作和姿勢適應性於一身,是目前最全面的解決方案之一。
使用DreamActor-M1時的道德考量
DreamActor-M1 雖然令人興奮,但它也引發了嚴重的倫理問題,因為它只用一張照片就能製作出逼真的影片。以下是一些關鍵問題:
- 同意和身份濫用:DreamActor-M1 可用於在人們不知情或未經其許可的情況下製作影片。有人可能會在自己從未錄製過的影片中把朋友、公眾人物或名人制作成動畫。
- 深度偽造風險:DreamActor-M1 的輸出效果逼真,因此很難區分人工智慧生成的影片和真實影片。這項技術可能會產生有害的深度偽造(假影片),從而誤導或欺騙人們。
- 需要透明度:對人工智慧生成影片的任何使用都應向觀眾明確披露。這包括新增水印、免責宣告或數字後設資料,以確定內容是合成的。如果沒有這種透明度,觀眾可能會誤以為影片是真實的,從而失去信任。
- 在媒體中負責任地使用:電影製作、遊戲和動畫等創意產業應負責任地使用該技術。內容創作者、工作室和平臺必須採用最佳實踐和保障措施,防止技術被濫用。
小結
DreamActor-M1 是人工智慧動畫領域的一次巨大飛躍,為已經蓬勃發展的 GenAI 領域帶來了又一次突破。它將複雜的運動建模和擴散變換器與豐富的視覺理解融為一體,將靜態照片轉化為富有表現力的動態影片。雖然它具有創造性的潛力,但在使用時應提高認識並承擔責任。隨著研究的不斷發展,DreamActor-M1 已成為人工智慧如何在下一代媒體制作中實現逼真性和創造性的有力範例。
評論留言