長期的機器人操作任務對增強學習來說是一個嚴重的挑戰,主要是因為獎勵稀疏、動作-狀態空間維度高,以及設計有用的獎勵函數的困難。傳統的增強學習不太適合有效探索,因為缺乏反饋會妨礙學習最佳策略。這個問題在多階段推理的機器人控制任務中尤為重要,因為達成連續的子目標對整體成功至關重要。設計不良的獎勵結構可能會導致代理人陷入局部最優解或利用虛假的捷徑,從而導致次優的學習過程。此外,現有的大多數方法樣本複雜度高,需要大量的訓練數據才能在多樣的操作任務中進行概括。這些限制使得增強學習在現實世界的任務中變得不可能,因為數據效率和良好結構的學習信號是成功的關鍵。
早期的研究已經探討了基於模型的增強學習、基於示範的學習和逆增強學習。基於模型的方法,包括TD-MPC2,通過利用預測世界模型來提高樣本效率,但需要大量的探索來最佳化策略。基於示範的方法,包括MoDem和CoDER,通過利用專家的軌跡來減輕探索問題,但因為需要大量數據集而無法很好地擴展到高維度的長期任務。逆增強學習方法試圖從示範中學習獎勵函數,但缺乏良好的概括能力和計算複雜性。此外,該領域的大多數方法並未利用多階段任務的內在結構,因此未能利用將複雜目標分解為更易處理的子目標的可能性。
為了克服這些挑戰,研究人員提出了增強示範獎勵、政策和世界模型學習(DEMO3),這是一個集成了結構化獎勵獲取、政策優化和基於模型的決策的增強學習框架。該框架引入了三個主要創新:將稀疏的階段指標轉換為連續的結構化獎勵,以提供更可靠的反饋;一個雙相訓練計劃,最初使用行為克隆,然後進行互動增強學習過程;以及在線世界模型學習的整合,允許在訓練過程中動態調整懲罰。與當前的方法不同,這種方法允許通過階段特定的判別器實時獲取結構化獎勵,評估朝向子目標進展的概率。因此,該框架專注於任務目標的達成,而不是示範模仿,顯著提高了樣本效率和在機器人操作任務中的概括能力。
DEMO3是基於TD-MPC2方法構建的,該方法學習潛在空間的世界模型以增強規劃和控制步驟。該策略基於多個階段特定的判別器,每個判別器學習預測成功過渡到下一任務階段的機會。這些判別器使用二元交叉熵損失標準進行微調,並協助在線獎勵塑造,生成比稀疏的傳統獎勵更豐富的學習信號。訓練遵循系統的兩階段過程。首先,在預訓練階段,使用行為克隆從部分專家示範中學習政策和編碼器。其次,代理人參與持續的增強學習過程,通過環境交互學習調整和完善政策,同時依賴於獲得的密集獎勵。引入了一個退火過程,以通過逐漸轉移對行為克隆的依賴來提高操作效率。這種平滑的轉移使得行為從示範誘導的模仿逐步轉移到政策的獨立改進。該方法在十六個困難的機器人操作任務上進行測試,包括Meta-World、Robosuite和ManiSkill3,並在學習效率和穩健性方面實現了顯著的進展,與現有的最先進替代方案相比。
DEMO3在樣本效率、學習時間和整體任務完成成功率方面遠超最先進的增強學習算法。該方法在數據效率上平均提高了40%,在非常困難的長期挑戰中甚至報告高達70%的改進。該系統在僅需五次示範的情況下始終報告高成功率,而競爭方法則需要更大的數據集才能達到相似的成功。通過適當處理多階段稀疏獎勵實例,該系統在準確的機器人操作任務中,如插入釘子和堆疊方塊,表現出更高的成功率,並且在緊湊的交互預算內取得了改善。計算成本也相當,平均每100,000次交互步驟約為5.19小時,因此使其比競爭的增強學習模型更高效,同時在學習複雜的機器人技能方面取得了更好的結果。
DEMO3是針對機器人控制的增強學習的一項重要進展,能有效應對處理長期任務和稀疏獎勵的挑戰。通過利用在線密集獎勵學習、結構化政策優化和基於模型的決策,這一框架能夠實現高性能和高效率。引入的兩階段訓練程序和動態獎勵調整有助於在各種操作任務中獲得驚人的數據效率改進,成功率比現有方法高出40-70%。隨著獎勵塑造、政策學習優化的改善,以及減少對大型示範數據集的依賴,這一方法為更高效和可擴展的機器人學習方法奠定了基礎。未來的研究可以朝著更先進的示範抽樣方法和自適應獎勵塑造技術進行,以進一步提高數據效率,加速現實世界機器人任務中的增強學習。
查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外,隨時關注我們的Twitter,別忘了加入我們的80k+機器學習SubReddit。
🚨 介紹Parlant:一個以LLM為首的對話式AI框架,旨在為開發者提供對其AI客戶服務代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的CLI 📟 和Python及TypeScript的本地客戶端SDK 📦。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!