從多模態大型語言模型到通用體現代理：方法與教訓

多模態大型語言模型的能力

我們研究多模態大型語言模型 (MLLMs) 的能力，看看它們如何應對超越傳統語言和視覺任務的各種領域。特別是，我們專注於像是具身人工智慧、遊戲、使用者介面控制和規劃等領域。為此，我們介紹了一個將 MLLM 調整為通用具身代理 (GEA) 的過程。GEA 是一個統一的模型，能夠通過多具身動作標記器在這些不同的領域中自我定位。GEA 使用有監督學習在一個大型具身經驗數據集上進行訓練，並在互動模擬器中進行在線強化學習 (RL)。我們探討了開發這樣一個模型所需的數據和算法選擇。我們的研究結果顯示，使用跨領域數據和在線強化學習對於建立通用代理的重要性。最終的 GEA 模型在面對不同基準的未見任務時，與其他通用模型和特定基準的方法相比，展現了強大的泛化性能。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 從多模態大型語言模型到通用體現代理方法與教訓