教機器人了解自己的極限以完成開放式任務
如果有人告訴你要「了解自己的極限」,他們可能是在建議你要適度運動。但對於機器人來說,這句話的意思是要學習它在特定環境中的限制,以便安全和正確地完成工作。
例如,想像一下讓一個機器人清理你的廚房,但它不理解周圍的物理環境。這樣的機器怎麼能制定出一個實際的多步驟計畫,確保房間乾淨整潔呢?大型語言模型(LLMs)可以幫助它們接近這個目標,但如果模型只是在文字上訓練,那麼它可能會忽略機器人物理限制的關鍵細節,例如它能伸多遠,或者是否有附近的障礙物需要避免。如果僅依賴LLMs,你可能會發現自己在清理地板上的意大利麵醬。
為了幫助機器人執行這些開放式任務,麻省理工學院(MIT)的計算機科學與人工智慧實驗室(CSAIL)研究人員使用視覺模型來觀察機器周圍的環境並模擬其限制。這個團隊的策略是讓LLM制定一個計畫,然後在模擬器中檢查,以確保這個計畫是安全和現實的。如果這個行動序列不可行,語言模型會生成一個新的計畫,直到找到一個機器人可以執行的方案。
這種試錯方法,研究人員稱之為「通過持續約束滿足的代碼為機器人規劃」(PRoC3S),測試長期計畫以確保它們滿足所有限制,並使機器人能夠執行多樣的任務,例如寫信、畫星星,以及將積木分類和放置在不同位置。未來,PRoC3S可能幫助機器人在動態環境中完成更複雜的工作,例如在家中執行多步驟的任務(像是「給我做早餐」)。
「LLMs和傳統的機器人系統,如任務和運動規劃器,無法單獨執行這些任務,但它們的協同作用使開放式問題解決成為可能。」博士生Nishanth Kumar SM ’24說,他是有關PRoC3S的新論文的共同作者。「我們正在即時創建機器人周圍的模擬,並嘗試許多可能的行動計畫。視覺模型幫助我們創建一個非常真實的數位世界,使機器人能夠推理出每一步長期計畫的可行行動。」
這個團隊的研究成果在上個月的德國慕尼黑機器人學習會議(CoRL)上展示。
研究人員的實驗方法
研究人員的方法使用了一個在互聯網上廣泛文本上預訓練的LLM。在要求PRoC3S執行任務之前,團隊給他們的語言模型提供了一個與目標任務相關的示範任務(例如畫正方形)。這個示範任務包括活動的描述、一個長期計畫,以及有關機器人環境的相關細節。
那麼這些計畫在實際操作中表現如何呢?在模擬中,PRoC3S成功地畫出了星星和字母,每種情況下的成功率為80%。它還能將數位積木堆疊成金字塔和直線,並準確地將物品放置在正確的位置,例如將水果放在盤子上。在這些數位演示中,CSAIL的方法比類似的方法,如「LLM3」和「代碼作為政策」,更一致地完成了請求的任務。
CSAIL的工程師們接著將他們的方法應用到現實世界。他們的方法在機器手臂上開發並執行計畫,教它將積木放成直線。PRoC3S還使機器能夠將藍色和紅色的積木放入匹配的碗中,並將所有物品移動到桌子的中央。
Kumar和共同作者Aidan Curtis SM ’23(也是CSAIL的博士生)表示,這些發現表明LLM可以制定出更安全的計畫,讓人類可以信任其在實際中運作。研究人員想像一個家庭機器人,可以接受更一般的請求(例如「給我拿些薯片」),並可靠地找出執行所需的具體步驟。PRoC3S可以幫助機器人在相同的數位環境中測試計畫,以找到可行的行動方案——更重要的是,帶給你美味的小吃。
未來的工作中,研究人員希望使用更先進的物理模擬器來改善結果,並通過更可擴展的數據搜索技術來擴展到更複雜的長期任務。此外,他們計劃將PRoC3S應用於四足機器人,以執行包括行走和掃描周圍環境的任務。
「使用像ChatGPT這樣的基礎模型來控制機器人行動可能會導致不安全或不正確的行為,因為會出現幻覺。」AI研究所的研究員Eric Rosen說,他並未參與這項研究。「PRoC3S通過利用基礎模型進行高層次任務指導,同時採用明確推理世界的AI技術,以確保可驗證的安全和正確行動,解決了這個問題。這種基於規劃和數據驅動的方法的結合可能是開發能夠理解並可靠執行更廣泛任務的機器人的關鍵。」
Kumar和Curtis的共同作者還包括CSAIL的成員:麻省理工學院本科生研究員Jing Cao,以及麻省理工學院電機與計算機科學系的教授Leslie Pack Kaelbling和Tomás Lozano-Pérez。他們的工作部分得到了國家科學基金會、空軍科學研究辦公室、海軍研究辦公室、陸軍研究辦公室、麻省理工學院智力探索計畫和AI研究所的支持。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!