推理語言模型顯示出能透過生成更長的思考鏈來提升表現,這樣可以更有效地利用計算資源。然而,這些模型的一個主要限制是無法控制推理的長度,這使得有效分配計算資源變得困難。在某些情況下,模型生成的輸出過長,浪費計算資源,而在其他情況下,它們又過早停止,導致表現不佳。現有的方法往往會降低性能,例如強制使用特殊標記如「等待」或「最終答案」來調節輸出長度。與一般的文本生成不同,推理任務需要在計算效率和準確性之間取得平衡,這突顯了精確控制長度的必要性。
之前的研究探討了測試時的擴展策略,顯示增加推理計算(透過更長的推理鏈或並行取樣)能改善在數學問題解決和代碼生成等複雜推理任務中的表現。然而,目前的方法缺乏對推理長度的細緻控制,導致效率低下。雖然之前的工作主要集中在遵循指令的模型或一般文本生成上,但推理模型因其需要動態調整推理長度而面臨獨特挑戰。最近的嘗試,例如預算強制截斷,會破壞推理的一致性並影響準確性。為了解決這些問題,本研究提出了一種明確控制推理長度的方法,優化計算成本的同時保持性能。
卡內基梅隆大學的研究人員介紹了長度控制政策優化(Length Controlled Policy Optimization, LCPO),這是一種增強學習方法,通過確保準確性和遵循用戶指定的長度限制來增強推理模型。經過LCPO訓練的模型,如L1,能夠有效平衡計算成本和性能,通過基於提示的約束調整推理長度。L1超越了S1方法,甚至在相同的推理長度下超越了GPT-4o。此外,LCPO還提高了模型在邏輯推理和知識基準(如MMLU)上的泛化能力。值得注意的是,使用LCPO訓練的模型在短思考鏈方面表現出色,能在各種任務中保持高準確率,同時精確控制長度。
傳統的推理模型缺乏控制輸出長度的機制,這使得管理計算預算變得困難。LCPO通過根據提示中給定的目標長度來調整模型,解決了這個問題。模型使用增強學習進行訓練,獎勵函數平衡準確性和遵循長度限制,這導致了兩個變體:L1-Exact,嚴格匹配目標長度,以及L1-Max,保持在指定的最大長度內。L1-Max在優先考慮正確性的同時允許靈活性。這種方法通過優化推理性能來提高效率,同時確保計算成本保持在可控範圍內。
所提出的LCPO方法(L1)在各種基準測試中顯示出在長度控制的文本生成方面的優越性能。L1-Exact和L1-Max在保持精確的標記約束的同時,持續超越基準模型。與S1相比,L1有效地調整推理鏈而不進行截斷,實現了20-25%的絕對增長和超過100%的相對增長。L1在域外任務中也表現良好,顯示出強大的性能擴展能力。在數學推理任務中,它在長度遵循方面保持高精度,偏差最小。此外,L1採用自適應推理策略,在較長的長度中為自我修正和結論分配更多標記,同時保持中間推理步驟和最終輸出之間的高效平衡。
總結來說,這項研究提出了LCPO,一種增強學習方法,使語言模型中的推理鏈長度能夠精確控制。通過使用LCPO,我們訓練了L1,這是一個遵循用戶指定長度限制的推理模型,同時優化準確性。L1超越了之前的長度控制方法,在數學推理中實現了超過100%的相對增長和20%的絕對增長。它在域外任務中表現良好,並在短思考鏈推理中意外地表現優異,超越了相同長度的更大模型如GPT-4o。LCPO提供了一種可擴展且高效的方法,通過簡單的基於提示的長度控制來平衡計算成本和準確性。
查看論文、Hugging Face上的模型和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的Twitter,別忘了加入我們的80k+ ML SubReddit。
🚨 介紹Parlant:一個以LLM為首的對話式AI框架,旨在為開發人員提供對其AI客服代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行介面(CLI)📟和Python及TypeScript的本地客戶端SDK運行📦。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!