如果你能控制推理模型「思考」的時間會怎樣？CMU研究人員推出L1-1.5B：強化學習優化AI思考過程

推理語言模型顯示出能透過生成更長的思考鏈來提升表現，這樣可以更有效地利用計算資源。然而，這些模型的一個主要限制是無法控制推理的長度，這使得有效分配計算資源變得困難。在某些情況下，模型生成的輸出過長，浪費計算資源，而在其他情況下，它們又過早停止，導致表現不佳。現有的方法往往會降低性能，例如強制使用特殊標記如「等待」或「最終答案」來調節輸出長度。與一般的文本生成不同，推理任務需要在計算效率和準確性之間取得平衡，這突顯了精確控制長度的必要性。

之前的研究探討了測試時的擴展策略，顯示增加推理計算（透過更長的推理鏈或並行取樣）能改善在數學問題解決和代碼生成等複雜推理任務中的表現。然而，目前的方法缺乏對推理長度的細緻控制，導致效率低下。雖然之前的工作主要集中在遵循指令的模型或一般文本生成上，但推理模型因其需要動態調整推理長度而面臨獨特挑戰。最近的嘗試，例如預算強制截斷，會破壞推理的一致性並影響準確性。為了解決這些問題，本研究提出了一種明確控制推理長度的方法，優化計算成本的同時保持性能。

卡內基梅隆大學的研究人員介紹了長度控制政策優化（Length Controlled Policy Optimization, LCPO），這是一種增強學習方法，通過確保準確性和遵循用戶指定的長度限制來增強推理模型。經過LCPO訓練的模型，如L1，能夠有效平衡計算成本和性能，通過基於提示的約束調整推理長度。L1超越了S1方法，甚至在相同的推理長度下超越了GPT-4o。此外，LCPO還提高了模型在邏輯推理和知識基準（如MMLU）上的泛化能力。值得注意的是，使用LCPO訓練的模型在短思考鏈方面表現出色，能在各種任務中保持高準確率，同時精確控制長度。

傳統的推理模型缺乏控制輸出長度的機制，這使得管理計算預算變得困難。LCPO通過根據提示中給定的目標長度來調整模型，解決了這個問題。模型使用增強學習進行訓練，獎勵函數平衡準確性和遵循長度限制，這導致了兩個變體：L1-Exact，嚴格匹配目標長度，以及L1-Max，保持在指定的最大長度內。L1-Max在優先考慮正確性的同時允許靈活性。這種方法通過優化推理性能來提高效率，同時確保計算成本保持在可控範圍內。

所提出的LCPO方法（L1）在各種基準測試中顯示出在長度控制的文本生成方面的優越性能。L1-Exact和L1-Max在保持精確的標記約束的同時，持續超越基準模型。與S1相比，L1有效地調整推理鏈而不進行截斷，實現了20-25%的絕對增長和超過100%的相對增長。L1在域外任務中也表現良好，顯示出強大的性能擴展能力。在數學推理任務中，它在長度遵循方面保持高精度，偏差最小。此外，L1採用自適應推理策略，在較長的長度中為自我修正和結論分配更多標記，同時保持中間推理步驟和最終輸出之間的高效平衡。

總結來說，這項研究提出了LCPO，一種增強學習方法，使語言模型中的推理鏈長度能夠精確控制。通過使用LCPO，我們訓練了L1，這是一個遵循用戶指定長度限制的推理模型，同時優化準確性。L1超越了之前的長度控制方法，在數學推理中實現了超過100%的相對增長和20%的絕對增長。它在域外任務中表現良好，並在短思考鏈推理中意外地表現優異，超越了相同長度的更大模型如GPT-4o。LCPO提供了一種可擴展且高效的方法，通過簡單的基於提示的長度控制來平衡計算成本和準確性。

查看論文、Hugging Face上的模型和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外，隨時關注我們的Twitter，別忘了加入我們的80k+ ML SubReddit。

🚨 介紹Parlant：一個以LLM為首的對話式AI框架，旨在為開發人員提供對其AI客服代理的控制和精確度，利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行介面（CLI）📟和Python及TypeScript的本地客戶端SDK運行📦。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 如果你能控制推理模型思考的時間會怎樣CMU研究人員推出L11.5B強化學習優化AI思考過程