互動數位代理 (IDAs) 的新方法
互動數位代理 (IDAs) 利用狀態數位環境的應用程式介面 (APIs) 來執行任務,回應使用者的請求。雖然由指令調整的大型語言模型 (LLMs) 驅動的 IDAs 可以在多步驟的交流中對介面反饋做出反應,但它們並未在各自的數位環境中接受過訓練。以往的方法在像 AppWorld 這樣的複雜基準中完成的任務不到一半。
我們的解決方案
我們提出了一種強化學習 (RL) 方法,直接在目標環境中訓練 IDAs。我們將這種訓練形式化為部分可觀察的馬可夫決策過程,並推導出 LOOP,這是一種數據和記憶體效率高的近端政策優化變體。LOOP 不使用價值網絡,並在記憶體中僅保留一個底層 LLM 的副本,這使得它的實現簡單且與微調單個 LLM 一樣節省記憶體。
訓練成果
在 AppWorld 環境中,使用 LOOP 訓練的 320 億參數代理比更大的 OpenAI o1 代理表現好 9 個百分點(相對於 15%)。據我們所知,這是首次報告將強化學習應用於通過直接 API 呼叫與狀態性、多領域、多應用環境互動的 IDAs。我們的分析揭示了強化學習在這一領域的有效性,顯示代理學會了查閱 API 文檔、避免不必要的假設、最小化混淆,並從挫折中恢復。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!