Test-Time Training相關文章列表

從文字生成影片已經取得了長足的進步，但在製作較長的多場景故事時仍然會遇到障礙。雖然 Sora、Veo 和 Movie Gen 等擴散模型提高了視覺質量，但它們通常僅限於 20 秒以內的片段。真正的挑戰是什麼？語境。要從一段文字中生成一分鐘的故事驅動型影片，需要模型處理成百上千個標記，同時保持敘事和視覺的連貫性。這正是英偉達™（NVIDIA®）、斯坦福大學、加州大學伯克利分校和其他機構的最新研究成果所要解決的問題，該研究引入了一種名為“Test-Time 訓練”（TTT）的技術，以突破目前的限制。

4 月 14, 2025 49 0