星期三, 30 7 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

CMU 研究人員推出 PAPRIKA:一種微調方法,使語言模型能夠發展不受特定環境限制的通用決策能力

2025-03-08
in 機器學習與應用
0 0
0
CMU 研究人員推出 PAPRIKA:一種微調方法,使語言模型能夠發展不受特定環境限制的通用決策能力
Share on FacebookShare on Twitter
Your Ad


在今天快速發展的人工智慧 (AI) 環境中,一個持續的挑戰是如何讓語言模型具備強大的決策能力,這種能力不僅限於單次互動。傳統的大型語言模型 (LLMs) 在生成連貫的回應方面表現優異,但在多步驟問題解決或與動態環境互動時常常遇到困難。這主要是因為訓練數據的性質,這些數據很少反映現實世界場景所需的結構化和互動經驗。此外,直接部署模型以收集現實世界的互動數據可能既昂貴又有風險。因此,迫切需要一些方法來教導 LLMs 在安全和可控的方式下探索、收集相關信息並做出深思熟慮的連續決策。

為了應對這些挑戰,卡內基梅隆大學 (Carnegie Mellon University) 的研究人員開發了一種名為 PAPRIKA 的方法。這種方法旨在賦予語言模型一般的決策能力,而不僅限於某一特定環境。PAPRIKA 不依賴傳統的訓練數據,而是利用在多樣化任務中生成的合成互動數據。這些任務包括經典的猜謎遊戲,如二十個問題,還有像 Mastermind 的謎題,甚至模擬客戶服務互動的場景。通過在這些多樣的路徑上進行訓練,模型學會根據環境的上下文反饋調整其行為,而無需額外的梯度更新。這種方法鼓勵模型採用更靈活的上下文學習策略,能夠應用於各種新任務。

技術細節與好處

PAPRIKA 的方法論建立在兩階段的微調過程上。第一階段是將 LLM 暴露於大量使用名為 Min‑p 抽樣的方法生成的合成路徑,這確保了訓練數據的多樣性和一致性。這一步驟讓模型體驗到各種互動策略,包括成功和不太有效的決策行為。第二階段則使用監督微調 (SFT) 和直接偏好優化 (DPO) 目標的混合來精煉模型。在這種設置中,模型比較一對對的路徑,逐漸學會偏好那些更直接導致任務成功的路徑。

PAPRIKA 還認識到並非所有任務的挑戰程度相同,因此它整合了一種課程學習策略。這個組件根據任務提供有意義的學習經驗的潛力動態選擇任務。通過優先考慮那些能產生更豐富學習信號的任務,這種方法提高了數據效率,幫助模型更好地概括其決策策略。這些方法的結合使得模型在各種情境下的連續決策能力得到了提升。

結果與見解

PAPRIKA 方法的實際好處在其實證結果中顯而易見。在一個示例中,這種方法被應用於一個盜賊最佳臂選擇任務,這是一個需要仔細分配有限樣本預算以識別最有前景選項的場景。在這裡,PAPRIKA 顯著提高了平均成功率,顯示出在策略決策方面的顯著改善。更廣泛地說,當模型在十組多樣任務的路徑上進行訓練時,其整體表現比基準模型提高了約 47%,這是通過大約 22,500 條訓練路徑實現的。

進一步的實驗使用留一法評估顯示,通過 PAPRIKA 學習的決策策略可以概括到以前未見過的任務。例如,當模型在所有任務組中訓練時,仍然能在省略的任務組上表現競爭力。這一發現表明,通過這種微調方法開發的策略並不僅限於特定任務,而是可以在不同的決策場景中轉移。此外,涉及課程學習的研究顯示,根據任務的難度選擇性抽樣訓練任務可以帶來額外的改進,進一步強調了量身定制的數據驅動任務選擇方法的價值。

結論

總之,PAPRIKA 代表了一種深思熟慮且穩健的方法,旨在彌合靜態語言理解與動態連續決策之間的差距。通過利用合成互動數據並採用精心設計的兩階段微調過程,結合課程學習,卡內基梅隆大學的研究人員展示了 LLMs 可以被精煉成更具適應性的決策者。這種方法不僅僅依賴於特定任務的微調,而是準備模型以最小的額外訓練來應對新的挑戰。

能夠與外部環境互動、收集相關信息並根據反饋調整決策,對於任何設計為自主運作的系統都是至關重要的。雖然仍然存在一些挑戰,例如確保穩固的起始模型和管理合成數據生成的計算成本,但 PAPRIKA 提供了一條有希望的途徑,朝著開發更靈活的 AI 系統邁進。最終,隨著我們的模型不斷進步,像 PAPRIKA 這樣的方法將對創造不僅在語言理解上熟練,還能夠細緻入微地應對複雜現實決策任務的工具至關重要。

查看論文、GitHub 頁面和 Hugging Face 上的模型。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外,歡迎在 Twitter 上關注我們,並別忘了加入我們的 80,000 多名機器學習 SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: CMUPAPRIKA一種微調方法使語言模型能夠發展不受特定環境限制的通用決策能力研究人員推出
Previous Post

自動代理:一個完全自動化且高度自我發展的框架,使得用戶僅通過自然語言即可創建和部署大型語言模型代理

Next Post

網路罪犯涉嫌利用StubHub後門竊取泰勒絲門票

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
網路罪犯涉嫌利用StubHub後門竊取泰勒絲門票

網路罪犯涉嫌利用StubHub後門竊取泰勒絲門票

AI 與人類專業的完美平衡行業領袖的觀點

AI 與人類專業的完美平衡行業領袖的觀點

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。