星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

如果你能控制推理模型「思考」的時間會怎樣?CMU研究人員推出L1-1.5B:強化學習優化AI思考過程

2025-03-11
in 機器學習與應用
0 0
0
如果你能控制推理模型「思考」的時間會怎樣?CMU研究人員推出L1-1.5B:強化學習優化AI思考過程
Share on FacebookShare on Twitter
Your Ad


推理語言模型顯示出能透過生成更長的思考鏈來提升表現,這樣可以更有效地利用計算資源。然而,這些模型的一個主要限制是無法控制推理的長度,這使得有效分配計算資源變得困難。在某些情況下,模型生成的輸出過長,浪費計算資源,而在其他情況下,它們又過早停止,導致表現不佳。現有的方法往往會降低性能,例如強制使用特殊標記如「等待」或「最終答案」來調節輸出長度。與一般的文本生成不同,推理任務需要在計算效率和準確性之間取得平衡,這突顯了精確控制長度的必要性。

之前的研究探討了測試時的擴展策略,顯示增加推理計算(透過更長的推理鏈或並行取樣)能改善在數學問題解決和代碼生成等複雜推理任務中的表現。然而,目前的方法缺乏對推理長度的細緻控制,導致效率低下。雖然之前的工作主要集中在遵循指令的模型或一般文本生成上,但推理模型因其需要動態調整推理長度而面臨獨特挑戰。最近的嘗試,例如預算強制截斷,會破壞推理的一致性並影響準確性。為了解決這些問題,本研究提出了一種明確控制推理長度的方法,優化計算成本的同時保持性能。

卡內基梅隆大學的研究人員介紹了長度控制政策優化(Length Controlled Policy Optimization, LCPO),這是一種增強學習方法,通過確保準確性和遵循用戶指定的長度限制來增強推理模型。經過LCPO訓練的模型,如L1,能夠有效平衡計算成本和性能,通過基於提示的約束調整推理長度。L1超越了S1方法,甚至在相同的推理長度下超越了GPT-4o。此外,LCPO還提高了模型在邏輯推理和知識基準(如MMLU)上的泛化能力。值得注意的是,使用LCPO訓練的模型在短思考鏈方面表現出色,能在各種任務中保持高準確率,同時精確控制長度。

傳統的推理模型缺乏控制輸出長度的機制,這使得管理計算預算變得困難。LCPO通過根據提示中給定的目標長度來調整模型,解決了這個問題。模型使用增強學習進行訓練,獎勵函數平衡準確性和遵循長度限制,這導致了兩個變體:L1-Exact,嚴格匹配目標長度,以及L1-Max,保持在指定的最大長度內。L1-Max在優先考慮正確性的同時允許靈活性。這種方法通過優化推理性能來提高效率,同時確保計算成本保持在可控範圍內。

所提出的LCPO方法(L1)在各種基準測試中顯示出在長度控制的文本生成方面的優越性能。L1-Exact和L1-Max在保持精確的標記約束的同時,持續超越基準模型。與S1相比,L1有效地調整推理鏈而不進行截斷,實現了20-25%的絕對增長和超過100%的相對增長。L1在域外任務中也表現良好,顯示出強大的性能擴展能力。在數學推理任務中,它在長度遵循方面保持高精度,偏差最小。此外,L1採用自適應推理策略,在較長的長度中為自我修正和結論分配更多標記,同時保持中間推理步驟和最終輸出之間的高效平衡。

總結來說,這項研究提出了LCPO,一種增強學習方法,使語言模型中的推理鏈長度能夠精確控制。通過使用LCPO,我們訓練了L1,這是一個遵循用戶指定長度限制的推理模型,同時優化準確性。L1超越了之前的長度控制方法,在數學推理中實現了超過100%的相對增長和20%的絕對增長。它在域外任務中表現良好,並在短思考鏈推理中意外地表現優異,超越了相同長度的更大模型如GPT-4o。LCPO提供了一種可擴展且高效的方法,通過簡單的基於提示的長度控制來平衡計算成本和準確性。

查看論文、Hugging Face上的模型和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的Twitter,別忘了加入我們的80k+ ML SubReddit。

🚨 介紹Parlant:一個以LLM為首的對話式AI框架,旨在為開發人員提供對其AI客服代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行介面(CLI)📟和Python及TypeScript的本地客戶端SDK運行📦。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 如果你能控制推理模型思考的時間會怎樣CMU研究人員推出L11.5B強化學習優化AI思考過程
Previous Post

平台網狀、中心與輻射、以及集中式 | 3 種數據團隊

Next Post

AI數據保留造成環境障礙

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
AI數據保留造成環境障礙

AI數據保留造成環境障礙

新的基準可能有助於減少人工智慧模型的偏見

新的基準可能有助於減少人工智慧模型的偏見

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。