Meta AI 推出 VideoJAM：一種增強 AI 生成影片運動一致性的創新 AI 框架

儘管最近有了進展，生成視頻模型在真實表現運動方面仍然面臨挑戰。許多現有模型主要專注於像素級的重建，這常常導致運動一致性上的不一致。這些缺陷表現為不真實的物理效果、缺失的幀或複雜運動序列中的扭曲。例如，模型可能難以描繪旋轉運動或體操等動態行為及物體互動。解決這些問題對於提高人工智慧生成視頻的真實感至關重要，特別是隨著其應用擴展到創意和專業領域。

Meta AI推出了VideoJAM，這是一個旨在加強視頻生成模型中運動表現的框架。通過鼓勵聯合外觀-運動表現，VideoJAM提高了生成運動的一致性。與傳統方法將運動視為次要考量不同，VideoJAM將其直接整合到訓練和推理過程中。這個框架可以在現有模型中進行最小修改地整合，提供了一種高效的方式來提升運動質量，而不需要改變訓練數據。

技術方法與優勢

VideoJAM由兩個主要組件組成：

訓練階段：輸入視頻 (x1) 及其對應的運動表現 (d1) 都會受到噪音影響，並通過一個線性層 (Win+) 嵌入到一個聯合潛在表現中。然後，擴散模型處理這個表現，並通過兩個線性投影層預測外觀和運動組件 (Wout+)。這種結構化的方法有助於平衡外觀真實性與運動一致性，減少以往模型中常見的權衡問題。

推理階段（內部引導機制）：在推理過程中，VideoJAM引入了內部引導，模型利用自身不斷演變的運動預測來指導視頻生成。與依賴固定外部信號的傳統技術不同，內部引導允許模型動態調整其運動表現，從而實現幀之間更平滑和自然的過渡。

洞察

對VideoJAM的評估顯示，在不同類型的視頻中運動一致性有顯著改善。主要發現包括：

增強的運動表現：與已建立的模型如Sora和Kling相比，VideoJAM減少了幀扭曲和不自然物體變形等瑕疵。

改善的運動真實性：VideoJAM在自動評估和人類評估中持續獲得更高的運動一致性分數。

模型的多樣性：該框架能有效整合各種預訓練視頻模型，顯示出其適應性，而不需要大量重新訓練。

高效實施：VideoJAM僅使用兩個額外的線性層來提升視頻質量，使其成為一個輕量且實用的解決方案。

結論

VideoJAM提供了一種結構化的方法來改善人工智慧生成視頻中的運動一致性，將運動作為關鍵組件，而不是事後考量。通過利用聯合外觀-運動表現和內部引導機制，該框架使模型能夠生成具有更高時間一致性和真實感的視頻。所需的架構修改最小，VideoJAM提供了一種實用的方法來精煉生成視頻模型中的運動質量，使其在各種應用中更可靠。

查看論文和項目頁面。所有研究的功勞歸功於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的75k+ ML SubReddit。

🚨 Marktechpost邀請AI公司/初創企業/團體合作，參加即將推出的AI雜誌，主題為「開源AI在生產中的應用」和「代理AI」。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！