多模態大型語言模型 (MLLMs) 的能力
多模態大型語言模型 (MLLMs) 在許多領域展現了廣泛的能力,包括具身人工智慧 (Embodied AI)。在這項研究中,我們探討如何將 MLLM 最好地與不同的具身形式及其相關的行動空間結合,目的是利用 MLLM 的多模態世界知識。
方法概述
我們首先通過統一架構和行動空間適配器的視角,概括了多種方法。對於連續行動,我們顯示學習的標記化能夠提供足夠的建模精確度,從而在下游任務中獲得最佳表現。對於離散行動,我們證明將這些行動與 MLLM 的原生輸出標記空間進行語義對齊,能夠達到最強的表現。
研究結果
我們通過對七種行動空間適配器在五個不同環境中的徹底研究,涵蓋了超過 114 個具身任務,得出了這些結論。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!