谷歌深度思維推出 Genie 2：一個自回歸潛在擴散模型，用於虛擬世界和遊戲創作，僅需最少輸入

谷歌深度學習 (Google DeepMind) 推出了 Genie 2，這是一個多模態人工智慧 (AI) 模型，旨在縮小創意與 AI 之間的差距。Genie 2 將重新定義互動內容創作的未來，特別是在視頻遊戲開發和虛擬世界方面。這個新版本在原有的 Genie 基礎上進行了改進，展示了許多進步，包括能夠從簡單的輸入生成複雜、可完全遊玩的虛擬環境。Genie 2 可以將這些輸入轉換為動態、身臨其境的視頻遊戲場景，無論是文字描述、圖片還是手繪草圖。

使用其直觀的系統，谷歌 Genie 2 允許用戶創建詳細的互動虛擬環境。這不再僅限於有程式設計技能的人，任何人都可以使用 Genie 2 的直觀系統來創建詳細的互動虛擬環境。這個 AI 工具分析大量數據集，包括視頻內容，以學習玩家如何與其環境互動。這使得它能夠生成用戶可以積極參與和探索的虛擬空間。Genie 2 的特別之處在於它能夠自主解釋和轉換輸入，生成完全運行的遊戲元素，而不需要明確的指示。

時空 (ST) 變壓器是一種獨特的變壓器模型，使 Genie 2 能夠有效處理視頻內容。與傳統的文本處理變壓器不同，ST 變壓器可以分析視頻幀的空間和時間組件。這使得 Genie 2 能夠預測視頻序列中可能發生的動作，這對於生成視頻遊戲中的下一個可玩幀至關重要。基本上，AI 學習視頻內容中的基本模式以及物體隨著時間的推移如何互動，從而使其能夠模擬現實的、發展中的虛擬世界。通過這種複雜的方法，它不僅能理解視頻的單獨幀，還能理解它們之間的過渡，從而實現更流暢、逼真的虛擬環境。

谷歌 Genie 2 能夠從視頻內容中學習潛在的動作。這一特性使得 AI 能夠在遊戲或虛擬世界中預測玩家的動作，而無需明確的指示。

例如，如果用戶提供一個簡單的空間圖片或描述，Genie 2 可以推斷出玩家在該環境中最可能採取的動作，例如走路、跳躍或與物體互動。這一能力使得用戶能夠創建個性化的虛擬空間，自然地對玩家的輸入作出反應。這一特性令人印象深刻，因為它模仿了現代視頻遊戲的動態互動行為，環境會即時對玩家的選擇和行動作出反應。

Genie 2 的另一個優秀特性是它能夠根據相對較少的輸入創建全新的遊戲體驗。這是通過對大量互聯網視頻的訓練實現的，特別是那些展示遊戲玩法的視頻。這種訓練使 Genie 2 能夠學習遊戲環境的基本規則和動態。然後，它利用這些知識來預測用戶輸入的適當反應，生成複雜且動態的世界，而不需要龐大的規則手冊。從視頻內容中學習的過程對其成功至關重要，因為它使 Genie 2 能夠適應並處理無限多樣的虛擬場景。

Genie 2 運作的核心是使用視頻標記器，這將視頻幀的複雜性降低為更小、更易於管理的塊。這些塊，稱為標記 (tokens)，對 AI 來說更容易處理和操作。利用這些標記，Genie 2 通過評估視頻中的動作來預測視頻序列的下一幀，有效地延續故事或遊戲序列。這種即時生成視頻下一幀的能力對於創建身臨其境的可玩環境至關重要，因為它使得用戶能夠構建隨著時間自然演變的遊戲。

此外，Genie 2 使用的動態模型在維持生成視頻的連貫性和一致性方面發揮了重要作用。動態模型利用視頻標記和推斷的動作來生成下一幀，確保虛擬世界保持一致和合邏輯。這個模型幫助預測在遊戲或虛擬空間中根據玩家的行動和選擇會發生什麼。這種預測能力使虛擬世界感覺更加響應和互動，因為 AI 會根據玩家的即時決策進行調整。

系統還包括一個潛在動作模型 (LAM)，這幫助 Genie 2 理解視頻幀之間發生的事情。LAM 分析視頻序列，以推斷未說出的動作，例如角色移動或與物體互動。這一特性在視頻生成中非常重要，因為它使 AI 能夠在虛擬世界中創造更準確和動態的物體與角色之間的互動。

總之，谷歌 Genie 2 對遊戲和世界創建的創新方法對行業來說是一個重大變革。它使得用戶能夠以最少的努力和技術專業知識創建複雜的虛擬環境，為專業人士和業餘愛好者開啟了新的可能性。例如，遊戲開發者可以使用 Genie 2 快速原型設計新的世界和遊戲體驗，節省寶貴的時間和資源。同時，愛好者和有抱負的創作者可以在不需要高級程式設計技能的情況下探索他們的想法。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！