多模態大型語言模型的能力
我們研究多模態大型語言模型 (MLLMs) 的能力,看看它們如何應對超越傳統語言和視覺任務的各種領域。特別是,我們專注於像是具身人工智慧、遊戲、使用者介面控制和規劃等領域。為此,我們介紹了一個將 MLLM 調整為通用具身代理 (GEA) 的過程。GEA 是一個統一的模型,能夠通過多具身動作標記器在這些不同的領域中自我定位。GEA 使用有監督學習在一個大型具身經驗數據集上進行訓練,並在互動模擬器中進行在線強化學習 (RL)。我們探討了開發這樣一個模型所需的數據和算法選擇。我們的研究結果顯示,使用跨領域數據和在線強化學習對於建立通用代理的重要性。最終的 GEA 模型在面對不同基準的未見任務時,與其他通用模型和特定基準的方法相比,展現了強大的泛化性能。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!