儘管最近有了進展,生成視頻模型在真實表現運動方面仍然面臨挑戰。許多現有模型主要專注於像素級的重建,這常常導致運動一致性上的不一致。這些缺陷表現為不真實的物理效果、缺失的幀或複雜運動序列中的扭曲。例如,模型可能難以描繪旋轉運動或體操等動態行為及物體互動。解決這些問題對於提高人工智慧生成視頻的真實感至關重要,特別是隨著其應用擴展到創意和專業領域。
Meta AI推出了VideoJAM,這是一個旨在加強視頻生成模型中運動表現的框架。通過鼓勵聯合外觀-運動表現,VideoJAM提高了生成運動的一致性。與傳統方法將運動視為次要考量不同,VideoJAM將其直接整合到訓練和推理過程中。這個框架可以在現有模型中進行最小修改地整合,提供了一種高效的方式來提升運動質量,而不需要改變訓練數據。
技術方法與優勢
VideoJAM由兩個主要組件組成:
訓練階段:輸入視頻 (x1) 及其對應的運動表現 (d1) 都會受到噪音影響,並通過一個線性層 (Win+) 嵌入到一個聯合潛在表現中。然後,擴散模型處理這個表現,並通過兩個線性投影層預測外觀和運動組件 (Wout+)。這種結構化的方法有助於平衡外觀真實性與運動一致性,減少以往模型中常見的權衡問題。
推理階段(內部引導機制):在推理過程中,VideoJAM引入了內部引導,模型利用自身不斷演變的運動預測來指導視頻生成。與依賴固定外部信號的傳統技術不同,內部引導允許模型動態調整其運動表現,從而實現幀之間更平滑和自然的過渡。
洞察
對VideoJAM的評估顯示,在不同類型的視頻中運動一致性有顯著改善。主要發現包括:
增強的運動表現:與已建立的模型如Sora和Kling相比,VideoJAM減少了幀扭曲和不自然物體變形等瑕疵。
改善的運動真實性:VideoJAM在自動評估和人類評估中持續獲得更高的運動一致性分數。
模型的多樣性:該框架能有效整合各種預訓練視頻模型,顯示出其適應性,而不需要大量重新訓練。
高效實施:VideoJAM僅使用兩個額外的線性層來提升視頻質量,使其成為一個輕量且實用的解決方案。
結論
VideoJAM提供了一種結構化的方法來改善人工智慧生成視頻中的運動一致性,將運動作為關鍵組件,而不是事後考量。通過利用聯合外觀-運動表現和內部引導機制,該框架使模型能夠生成具有更高時間一致性和真實感的視頻。所需的架構修改最小,VideoJAM提供了一種實用的方法來精煉生成視頻模型中的運動質量,使其在各種應用中更可靠。
查看論文和項目頁面。所有研究的功勞歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的75k+ ML SubReddit。
🚨 Marktechpost邀請AI公司/初創企業/團體合作,參加即將推出的AI雜誌,主題為「開源AI在生產中的應用」和「代理AI」。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!