星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

長期互動大型語言模型代理的強化學習

2025-02-05
in 機器學習與應用
0 0
0
長期互動大型語言模型代理的強化學習
Share on FacebookShare on Twitter
Your Ad


互動數位代理 (IDAs) 的新方法

互動數位代理 (IDAs) 利用狀態數位環境的應用程式介面 (APIs) 來執行任務,回應使用者的請求。雖然由指令調整的大型語言模型 (LLMs) 驅動的 IDAs 可以在多步驟的交流中對介面反饋做出反應,但它們並未在各自的數位環境中接受過訓練。以往的方法在像 AppWorld 這樣的複雜基準中完成的任務不到一半。

我們的解決方案

我們提出了一種強化學習 (RL) 方法,直接在目標環境中訓練 IDAs。我們將這種訓練形式化為部分可觀察的馬可夫決策過程,並推導出 LOOP,這是一種數據和記憶體效率高的近端政策優化變體。LOOP 不使用價值網絡,並在記憶體中僅保留一個底層 LLM 的副本,這使得它的實現簡單且與微調單個 LLM 一樣節省記憶體。

訓練成果

在 AppWorld 環境中,使用 LOOP 訓練的 320 億參數代理比更大的 OpenAI o1 代理表現好 9 個百分點(相對於 15%)。據我們所知,這是首次報告將強化學習應用於通過直接 API 呼叫與狀態性、多領域、多應用環境互動的 IDAs。我們的分析揭示了強化學習在這一領域的有效性,顯示代理學會了查閱 API 文檔、避免不必要的假設、最小化混淆,並從挫折中恢復。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 長期互動大型語言模型代理的強化學習
Previous Post

程式設計的終結 – O’Reilly

Next Post

從履歷到求職信:使用 AI 和 LLM,搭配 Python 和 Streamlit

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
從履歷到求職信:使用 AI 和 LLM,搭配 Python 和 Streamlit

從履歷到求職信:使用 AI 和 LLM,搭配 Python 和 Streamlit

建立基於AI代理的系統與LangGraph:將人類納入循環

建立基於AI代理的系統與LangGraph:將人類納入循環

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。