大型語言模型中的自適應推理預算管理透過受限政策優化

大型語言模型 (LLMs) 在複雜推理任務中展現了驚人的能力，特別是在數學問題解決和編碼應用方面。研究顯示，推理鏈的長度與問題解決的準確性之間有著強烈的相關性。然而，它們面臨著重大挑戰：雖然延長推理過程可以提高解決問題的能力，但這往往導致效率低下。模型傾向於對於簡單問題生成不必要的冗長推理鏈，而這些問題本可以更直接地解決。這種一刀切的推理長度方法造成了計算效率低下，並降低了這些系統在現實應用中的實用性。

為了增強 LLM 的推理能力，各種方法相繼出現，其中「思考鏈 (Chain-of-Thought, CoT)」是一種基礎方法，通過將推理分解為明確的步驟來改善問題解決。基於 CoT，研究人員開發了更複雜的技術，例如擴展的 CoT，增加了額外步驟、自我反思機制、多回合推理和多代理辯論系統。最近的發展專注於擴大推理長度，像是 OpenAI-o1 和 DeepSeek-R1 等模型便是例子。然而，這些模型無論問題的複雜性如何，都會生成冗長的推理鏈。這種低效率的方法增加了計算成本和碳足跡。

來自 Meta AI 和伊利諾伊大學芝加哥分校的研究人員提出了一種創新的方法，旨在解決 LLM 推理中的低效率問題，通過開發一個系統，自動根據查詢的複雜性調整推理鏈的長度。雖然之前的啟發式方法試圖提高標記效率，以便在減少開銷的同時提高準確性，但這項新研究採取了強化學習 (Reinforcement Learning, RL) 的觀點。研究人員開發了一種分組方法，將響應根據其特徵分類為不同組別，創建了一個全面的框架來涵蓋整個響應空間，同時保持效率。

這種方法使用了一種序列級別的標記系統，通過將每個響應視為一個完整單位，簡化了複雜的轉移概率和中間獎勵。該架構將響應分為兩個主要組別，一個是常規長度的思考鏈響應，另一個是擴展響應，每個組別都有不同的推理成本。該系統通過雙層優化框架運行，其中資源分配約束在一個凸多面體內定義，限制每個組別的密度質量。此外，該算法使用迭代方法，在每次迭代中通過梯度更新解決上層問題，同時直接處理下層優化。

實驗結果顯示，所提出的方法在不同實施中顯著提高了性能。監督式微調 (Supervised Fine-Tuning, SFT) 結構 SVSFT 和 ASV-SFT-1 的通過率 (pass@1) 指標得到了提升，儘管這需要增加推理要求。更值得注意的是，ASV-IuB-q+ 的參數設置在 50% 和 75% 時顯示出顯著的效率提升，分別降低了 4.14% 和 5.74% 的成本，達到 2.16 倍和 4.32 倍的效率，與基於 RL 的自我修正方法 SCoRe 的性能相匹配。研究結果還揭示了基於提示和 SFT 方法在絕對改進和效率指標上的顯著限制，這表明自我修正能力通過 RL 更有效地出現。

總結來說，研究人員提出了一種方法來克服 LLM 推理中的低效率。此外，他們引入了 IBPO，一種約束政策優化框架，實施加權的監督式微調更新機制。這種方法通過整數線性規劃解決方案確定最佳權重，在每次迭代中建立在 CGPO 框架之上。雖然該系統在數學推理任務中顯示出有效的約束遵循和動態推理預算分配，但計算資源的限制可以通過多步驟的樣本累積來解決。未來的研究方向包括擴大該框架在不同 LLM 應用中的適用性，並擴大實驗實施以測試其在各種情境中的全部潛力。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 75k+ ML SubReddit。

🚨 推薦的開源 AI 平台：‘IntellAgent 是一個開源的多代理框架，用於評估複雜的對話 AI 系統’ (Promoted)

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 大型語言模型中的自適應推理預算管理透過受限政策優化