星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

大型語言模型中的自適應推理預算管理透過受限政策優化

2025-02-10
in 機器學習與應用
0 0
0
大型語言模型中的自適應推理預算管理透過受限政策優化
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 在複雜推理任務中展現了驚人的能力,特別是在數學問題解決和編碼應用方面。研究顯示,推理鏈的長度與問題解決的準確性之間有著強烈的相關性。然而,它們面臨著重大挑戰:雖然延長推理過程可以提高解決問題的能力,但這往往導致效率低下。模型傾向於對於簡單問題生成不必要的冗長推理鏈,而這些問題本可以更直接地解決。這種一刀切的推理長度方法造成了計算效率低下,並降低了這些系統在現實應用中的實用性。

為了增強 LLM 的推理能力,各種方法相繼出現,其中「思考鏈 (Chain-of-Thought, CoT)」是一種基礎方法,通過將推理分解為明確的步驟來改善問題解決。基於 CoT,研究人員開發了更複雜的技術,例如擴展的 CoT,增加了額外步驟、自我反思機制、多回合推理和多代理辯論系統。最近的發展專注於擴大推理長度,像是 OpenAI-o1 和 DeepSeek-R1 等模型便是例子。然而,這些模型無論問題的複雜性如何,都會生成冗長的推理鏈。這種低效率的方法增加了計算成本和碳足跡。

來自 Meta AI 和伊利諾伊大學芝加哥分校的研究人員提出了一種創新的方法,旨在解決 LLM 推理中的低效率問題,通過開發一個系統,自動根據查詢的複雜性調整推理鏈的長度。雖然之前的啟發式方法試圖提高標記效率,以便在減少開銷的同時提高準確性,但這項新研究採取了強化學習 (Reinforcement Learning, RL) 的觀點。研究人員開發了一種分組方法,將響應根據其特徵分類為不同組別,創建了一個全面的框架來涵蓋整個響應空間,同時保持效率。

這種方法使用了一種序列級別的標記系統,通過將每個響應視為一個完整單位,簡化了複雜的轉移概率和中間獎勵。該架構將響應分為兩個主要組別,一個是常規長度的思考鏈響應,另一個是擴展響應,每個組別都有不同的推理成本。該系統通過雙層優化框架運行,其中資源分配約束在一個凸多面體內定義,限制每個組別的密度質量。此外,該算法使用迭代方法,在每次迭代中通過梯度更新解決上層問題,同時直接處理下層優化。

實驗結果顯示,所提出的方法在不同實施中顯著提高了性能。監督式微調 (Supervised Fine-Tuning, SFT) 結構 SVSFT 和 ASV-SFT-1 的通過率 (pass@1) 指標得到了提升,儘管這需要增加推理要求。更值得注意的是,ASV-IuB-q+ 的參數設置在 50% 和 75% 時顯示出顯著的效率提升,分別降低了 4.14% 和 5.74% 的成本,達到 2.16 倍和 4.32 倍的效率,與基於 RL 的自我修正方法 SCoRe 的性能相匹配。研究結果還揭示了基於提示和 SFT 方法在絕對改進和效率指標上的顯著限制,這表明自我修正能力通過 RL 更有效地出現。

總結來說,研究人員提出了一種方法來克服 LLM 推理中的低效率。此外,他們引入了 IBPO,一種約束政策優化框架,實施加權的監督式微調更新機制。這種方法通過整數線性規劃解決方案確定最佳權重,在每次迭代中建立在 CGPO 框架之上。雖然該系統在數學推理任務中顯示出有效的約束遵循和動態推理預算分配,但計算資源的限制可以通過多步驟的樣本累積來解決。未來的研究方向包括擴大該框架在不同 LLM 應用中的適用性,並擴大實驗實施以測試其在各種情境中的全部潛力。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 75k+ ML SubReddit。

🚨 推薦的開源 AI 平台:‘IntellAgent 是一個開源的多代理框架,用於評估複雜的對話 AI 系統’ (Promoted)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 大型語言模型中的自適應推理預算管理透過受限政策優化
Previous Post

這篇AI論文介紹了MaAS(多代理架構搜尋):一個優化多代理系統的新機器學習框架

Next Post

使用Axolotl進行高效LLM訓練的QLoRA微調Mistral 7B教程

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
使用Axolotl進行高效LLM訓練的QLoRA微調Mistral 7B教程

使用Axolotl進行高效LLM訓練的QLoRA微調Mistral 7B教程

詢問數據倫理學家:組織如何建立數據和人工智慧倫理工作的能力?

詢問數據倫理學家:組織如何建立數據和人工智慧倫理工作的能力?

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。