透過Test-Time訓練生成一分鐘影片

透過Test-Time訓練生成一分鐘影片

從文字生成影片已經取得了長足的進步,但在製作較長的多場景故事時仍然會遇到障礙。雖然 Sora、Veo 和 Movie Gen 等擴散模型提高了視覺質量,但它們通常僅限於 20 秒以內的片段。真正的挑戰是什麼?語境。要從一段文字中生成一分鐘的故事驅動型影片,需要模型處理成百上千個標記,同時保持敘事和視覺的連貫性。這正是英偉達™(NVIDIA®)、斯坦福大學、加州大學伯克利分校和其他機構的最新研究成果所要解決的問題,該研究引入了一種名為“Test-Time 訓練”(TTT)的技術,以突破目前的限制。

長影片有什麼問題?

Transformer,尤其是用於影片生成的 Transformer,依賴於自我注意機制。由於其計算成本為二次方,因此隨著序列長度的增加,這種機制的擴充套件性很差。試圖生成一個完整的、具有動態場景和一致角色的一分鐘高解析度影片,意味著要處理 30 多萬個資訊標記。這使得該模型效率低下,而且在長時間內往往不連貫。

一些團隊試圖透過使用 Mamba 或 DeltaNet 等遞迴神經網路(RNN)來規避這一問題,這些網路提供線性時間上下文處理功能。然而,這些模型將上下文壓縮到固定大小的隱藏狀態中,從而限制了表達能力。這就好比要把整部電影擠進一張明信片,有些細節根本放不下。

TTT(Test-Time Training)如何解決這個問題?

這篇論文提出的想法是,透過將 RNN 的隱藏狀態轉化為可訓練的神經網路本身,使其更具表現力。具體來說,作者建議使用 TTT 層,即在處理輸入序列時進行快速適應的小型雙層 MLP。這些層在推理過程中使用自監督損失進行更新,這有助於它們動態地從影片不斷變化的上下文中學習。

想象一下一個能在飛行過程中進行調整的模型:隨著影片的展開,它的內部記憶會進行調整,以便更好地理解人物、動作和故事情節。這就是 TTT 所能實現的。

一分鐘影片生成

Source: One-Minute Video Generation with Test-Time Training

使用Test-Time訓練的一分鐘影片示例

在預訓練 Transformer 中新增 TTT 層

在預訓練 Transformer 中新增 TTT 層,可使其生成的一分鐘影片具有很強的時間一致性和運動平滑性。

提示:“Jerry snatches a wedge of cheese and races for his mousehole with Tom in pursuit. He slips inside just in time, leaving Tom to crash into the wall. Safe and cozy, Jerry enjoys his prize at a tiny table, happily nibbling as the scene fades to black.

基準比較

根據人類評估的 Elo 分數,TTT-MLP 在時間一致性、運動流暢度和整體美觀度方面均優於所有其他基線。

提示“Tom is happily eating an apple pie at the kitchen table. Jerry looks longingly wishing he had some. Jerry goes outside the front door of the house and rings the doorbell. While Tom comes to open the door, Jerry runs around the back to the kitchen. Jerry steals Tom’s apple pie. Jerry runs to his mousehole carrying the pie, while Tom is chasing him. Just as Tom is about to catch Jerry, he makes it through the mouse hole and Tom slams into the wall.

侷限性

生成的一分鐘影片作為概念驗證具有明顯的潛力,但仍包含明顯的人工痕跡。

它是如何工作的?

該系統從一個預先訓練好的 Diffusion Transformer 模型 CogVideo-X 5B 開始,該模型以前只能生成 3 秒鐘的片段。研究人員在模型中插入了 TTT 層,並對其進行了訓練(連同區域性注意力區塊),以處理更長的序列。

為了控制成本,自我注意力被限制在 3 秒鐘的短片段上,而 TTT 層則負責理解這些片段中的全域性敘事。該架構還包括門控機制,以確保 TTT 層在早期訓練中不會降低效能。

TTT層

Source: One-Minute Video Generation with Test-Time Training

它們透過雙向處理序列和將影片分割成有註釋的場景,進一步增強了訓練效果。例如,使用故事板格式詳細描述每個 3 秒鐘的片段、背景、人物位置、攝像機角度和動作。

TTT層-2

Source: One-Minute Video Generation with Test-Time Training

資料集:Tom & Jerry

為了使研究立足於一個一致的、易於理解的視覺領域,研究小組從超過 7 小時的經典《湯姆和傑瑞》動畫片中整理出一個資料集。這些資料被分解成不同的場景,並精細地註釋成 3 秒鐘的片段。透過專注於動畫片資料,研究人員避免了照相逼真的複雜性,而專注於敘事的連貫性和運動動態。

人類註釋員為每個片段撰寫描述性段落,確保模型有豐富、結構化的輸入可供學習。這樣還可以進行多階段訓練–首先是 3 秒鐘的片段,然後逐步訓練長達 63 秒的較長序列。

資料集:Tom & Jerry

Source: One-Minute Video Generation with Test-Time Training

效能:它真的有用嗎?

是的,而且令人印象深刻。與 Mamba 2、Gated DeltaNet 和滑動視窗注意力等領先基準相比,TTT-MLP 模型在 100 個影片的人工評估中平均超出它們 34 個 Elo 點。

評估考慮了以下因素

  • 文字對齊:影片在多大程度上遵循了提示
  • 動作自然度:人物動作的逼真度
  • 美觀:燈光、色彩和視覺吸引力
  • 時間一致性:跨場景的視覺連貫性

TTT-MLP 在動作和場景一致性方面表現尤為突出,它能在動態動作中保持邏輯連續性–這是其他模型難以做到的。

缺陷與侷限

儘管結果令人滿意,但仍存在人工痕跡。光照可能會不一致地變化,或者運動可能看起來很漂浮(例如乳酪不自然地懸停)。這些問題可能與基礎模型 CogVideo-X 的侷限性有關。另一個瓶頸是效率。雖然 TTT-MLP 比完全自注意模型快得多(速度提高了 2.5 倍),但它仍然比 Gated DeltaNet 等更精簡的 RNN 方法要慢。儘管如此,TTT 只需要微調,而不需要從頭開始訓練,這使得它在許多使用案例中更加實用。

該方法的獨特之處

  • 富有表現力的記憶體:TTT 將 RNN 的隱藏狀態轉化為可訓練網路,使其比固定大小的矩陣更具表現力。
  • 適應性:TTT 層在推理過程中進行學習和調整,使其能夠即時響應正在展開的影片。
  • 可擴充套件性:只要有足夠的資源,這種方法就能擴充套件到更長、更復雜的影片故事。
  • 實用微調:研究人員只對 TTT 層和門進行微調,從而保持了訓練的輕量和高效。

未來方向

研究小組指出了幾個擴充套件機會:

  • 最佳化 TTT 核心,加快推理速度
  • 嘗試使用更大或不同的骨幹模型
  • 探索更復雜的故事情節和領域
  • 使用基於變換器的隱藏狀態,而不是 MLP,以獲得更強的表現力

TTT 影片生成器 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1

下表解釋了該模型與其他流行的影片生成模型之間的區別:

模型 核心焦點 輸入型別 關鍵特徵 與 TTT 的區別
TTT (Test-Time Training) 生成動態適應的長影片 文字故事板 – 在推理過程中進行調整
– 可處理 60 秒以上的影片
– 連貫的多場景故事
專為長影片設計;在生成過程中更新內部狀態,以確保敘事的一致性
MoCha 生成會說話的字元 文字 + 語音 – 無關鍵點或參考影像
– 語音驅動的全身動畫
側重於角色對話和表情,而非全場景敘事影片
Goku 生成高質量影片和影像 文字、影像 – 整流Transformer
– 支援多模態輸入
針對質量和訓練速度進行了最佳化;並非專為長篇敘事而設計
OmniHuman1 逼真的人體動畫 影像 + 音訊 + 文字 – 多種調節訊號
– 高畫質頭像
建立栩栩如生的人物;不模擬長序列或動態場景轉換
DreamActor-M1 影像到動畫(面部/身體) 影像 + 駕駛影片 – 整體動作模仿
– 高度的幀一致性
為靜態影像製作動畫;不使用文字或處理逐個場景的故事生成

推薦閱讀

小結

Test-Time Training 為解決長語境影片生成問題提供了一個令人著迷的新視角。透過讓模型在推理過程中學習和適應,它彌補了講故事過程中的一個重要缺陷,在這個領域中,連續性、情感和節奏與視覺保真度同樣重要。

無論您是生成式人工智慧的研究人員、創意技術專家,還是對人工智慧生成媒體的下一步發展充滿好奇的產品領導者,這項工作都是指向未來動態、連貫的文字影片合成的路標。

評論留言