長期互動大型語言模型代理的強化學習

互動數位代理 (IDAs) 的新方法

互動數位代理 (IDAs) 利用狀態數位環境的應用程式介面 (APIs) 來執行任務，回應使用者的請求。雖然由指令調整的大型語言模型 (LLMs) 驅動的 IDAs 可以在多步驟的交流中對介面反饋做出反應，但它們並未在各自的數位環境中接受過訓練。以往的方法在像 AppWorld 這樣的複雜基準中完成的任務不到一半。

我們的解決方案

我們提出了一種強化學習 (RL) 方法，直接在目標環境中訓練 IDAs。我們將這種訓練形式化為部分可觀察的馬可夫決策過程，並推導出 LOOP，這是一種數據和記憶體效率高的近端政策優化變體。LOOP 不使用價值網絡，並在記憶體中僅保留一個底層 LLM 的副本，這使得它的實現簡單且與微調單個 LLM 一樣節省記憶體。

訓練成果

在 AppWorld 環境中，使用 LOOP 訓練的 320 億參數代理比更大的 OpenAI o1 代理表現好 9 個百分點（相對於 15%）。據我們所知，這是首次報告將強化學習應用於通過直接 API 呼叫與狀態性、多領域、多應用環境互動的 IDAs。我們的分析揭示了強化學習在這一領域的有效性，顯示代理學會了查閱 API 文檔、避免不必要的假設、最小化混淆，並從挫折中恢復。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 長期互動大型語言模型代理的強化學習