想像一下機器人幫你洗碗
想像一個機器人在幫你洗碗。你叫它從水槽裡拿一個泡沫碗,但它的抓手稍微偏了一點。
使用麻省理工學院 (MIT) 和 NVIDIA 研究人員開發的新框架,你可以用簡單的互動來修正這個機器人的行為。這個方法讓你可以在螢幕上指向碗,或是畫一條路徑,甚至只是輕輕推一下機器人的手臂,讓它朝正確的方向移動。
與其他修正機器人行為的方法不同,這種技術不需要使用者收集新數據或重新訓練機器學習模型。它讓機器人能夠利用直觀的即時人類反饋,選擇最接近滿足使用者需求的行動序列。
當研究人員測試他們的框架時,成功率比不使用人類干預的其他方法高出21%。
長期來看,這個框架可以讓使用者更輕鬆地引導工廠訓練的機器人執行各種家務任務,即使這個機器人從未見過他們的家或裡面的物品。
「我們不能指望普通人能夠進行數據收集和微調神經網絡模型。消費者希望機器人能夠直接使用,如果不能,他們會想要一個直觀的機制來自訂。這就是我們在這項工作中面對的挑戰,」電機工程與計算機科學 (EECS) 碩士生兼這項方法論文的主要作者 Felix Yanwei Wang 說。
他的合著者包括 Lirui Wang 博士(2024 年)、Yilun Du 博士(2024 年);資深作者 Julie Shah 是麻省理工學院 (MIT) 航空航天與宇宙科學教授,也是計算機科學與人工智慧實驗室 (CSAIL) 互動機器人小組的主任;還有 NVIDIA 的 Balakumar Sundaralingam、Xuning Yang、Yu-Wei Chao、Claudia Perez-D’Arpino 博士(2019 年)和 Dieter Fox。這項研究將在國際機器人與自動化會議上發表。
減少錯誤
最近,研究人員開始使用預訓練的生成式 AI 模型來學習機器人完成動作的「政策」,或一組規則。生成式模型能夠解決多種複雜任務。
在訓練過程中,模型只看到可行的機器人動作,因此它學會生成有效的路徑讓機器人跟隨。
雖然這些路徑是有效的,但並不意味著它們總是與使用者的意圖相符。機器人可能被訓練成在不把盒子打翻的情況下從架子上拿盒子,但如果架子的方向與它訓練時看到的不同,它可能無法拿到架子上方的盒子。
為了克服這些失敗,工程師通常需要收集數據來展示新任務,並重新訓練生成模型,這是一個昂貴且耗時的過程,需要機器學習的專業知識。
相反,麻省理工學院的研究人員希望讓使用者在機器人出錯時能夠引導其行為。
但是,如果人類與機器人互動以修正其行為,這可能會無意中導致生成模型選擇無效的行動。它可能會拿到使用者想要的盒子,但在過程中把書本打掉。
「我們希望讓使用者能夠與機器人互動,而不會引入這種錯誤,這樣我們在部署過程中就能得到更符合使用者意圖的行為,並且這些行為也是有效和可行的,」Wang 說。
他們的框架通過提供三種直觀的方式來修正機器人的行為來實現這一點,每種方式都有其特定優勢。
首先,使用者可以在顯示機器人攝影機視角的介面中指向他們想要機器人操作的物體。第二,他們可以在該介面中畫出一條路徑,讓他們指定希望機器人如何到達物體。第三,他們可以實際上推動機器人的手臂,讓它朝他們希望的方向移動。
「當你將環境的 2D 圖像映射到 3D 空間中的動作時,某些信息會丟失。實際上推動機器人是指定使用者意圖的最直接方式,沒有丟失任何信息,」Wang 說。
成功的取樣
為了確保這些互動不會導致機器人選擇無效的行動,例如與其他物體相撞,研究人員使用了一種特定的取樣程序。這種技術讓模型從一組有效的行動中選擇最接近使用者目標的行動。
「我們不是單純地強加使用者的意志,而是讓機器人了解使用者的意圖,但讓取樣程序圍繞其自己學習的行為集進行波動,」Wang 解釋說。
這種取樣方法使研究人員的框架在模擬和真實機器人手臂在玩具廚房中的實驗中表現優於他們比較的其他方法。
雖然他們的方法可能不總是立即完成任務,但它讓使用者能夠立即修正機器人,如果他們看到它做錯了什麼,而不是等它完成後再給它新的指示。
此外,在使用者推動機器人幾次,直到它拿起正確的碗後,它可以記錄這個修正行動,並在未來的訓練中將其納入行為中。然後,第二天,機器人就能在不需要推動的情況下拿起正確的碗。
「但持續改進的關鍵是讓使用者能夠與機器人互動,這就是我們在這裡展示的,」Wang 說。
未來,研究人員希望提高取樣程序的速度,同時保持或改善其性能。他們還想在新環境中實驗機器人政策生成。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!