優化大型語言模型的測試時間計算：一種具有累積後悔最小化的元強化學習方法

提升大型語言模型 (LLMs) 的推理能力，通過優化測試時的計算，是一個重要的研究挑戰。目前的方法主要依賴於使用搜索痕跡或強化學習 (RL) 進行微調，並使用二元結果獎勵。然而，這些方法可能無法充分有效地利用測試時的計算。最近的研究表明，增加測試時的計算可以通過生成更長的解決方案痕跡和納入結構化步驟（如反思、計劃和算法搜索）來改善推理。關鍵挑戰在於 LLMs 是否能根據任務的複雜性有效分配計算資源，並在給定更大的測試時計算預算時發現更困難問題的解決方案。解決這些問題對於提高 LLM 推理的效率和泛化能力至關重要。

最近在擴展測試時計算方面的進展，探索了為基於選擇的方法（如最佳 N 或束搜索）訓練單獨的驗證器，這有時比增加數據或模型大小更有效。然而，在不熟悉的搜索痕跡上進行微調可能導致記憶而不是真正的推理改進。基於 RL 的方法在生成思考鏈推理方面顯示出潛力，使模型能夠自我反省、計劃和完善其輸出。然而，增加推理長度並不總是與更高的準確性相關，因為模型可能生成不必要的長序列而沒有實質性進展。為了解決這個問題，最近的努力納入了結構化獎勵機制和長度懲罰，以鼓勵高效推理，確保模型專注於生成信息豐富、簡潔的解決方案，而不是過度計算。

來自卡內基梅隆大學 (Carnegie Mellon University) 和 Hugging Face 的研究人員正在研究如何優化 LLMs 的測試時計算，通過改進模型在推理過程中分配計算資源的方式。他們不僅依賴於結果獎勵的強化學習，而是引入了一種微調方法，平衡探索和利用，確保穩定地朝著正確答案邁進。他們的方法納入了一個密集的獎勵獎金來量化進展，提高了效率。在數學基準測試中的評估顯示，這種方法顯著超越了現有的方法，提升了準確性和標記效率。他們的研究結果還表明，優化進展可以最小化計算後悔，同時改善解決方案的發現，而不犧牲準確性。

優化測試時計算的問題被框架為一個元強化學習 (meta RL) 挑戰。目標是在給定的測試時標記預算內最大化 LLM 的性能，通過平衡探索和利用來實現。提出的元強化微調 (Meta Reinforcement Fine-Tuning, MRT) 方法不是僅僅優化結果，而是通過在連續的回合中獎勵進展來最小化累積後悔。這種不依賴預算的策略使 LLMs 能夠穩步進展，而不受訓練限制的影響。通過納入基於增量改進的獎勵獎金，MRT 確保了測試時計算的高效使用，增強了適應性和在部署限制內的反應準確性。

這項研究評估了 MRT 在優化測試時計算中的有效性，重點是實現高準確性同時保持計算效率。研究展示了關鍵發現，將 MRT 的效率與先前的方法進行比較，並對標記預算和進展進行了消融實驗。MRT 始終超越基準模型和結果獎勵的強化學習 (GRPO)，在其大小類別中達到了最先進的結果。它還改善了分佈外的穩健性，並在較弱的模型中提供了更大的性能增益。此外，MRT 顯著提高了標記效率，所需的標記數量較少即可達到相當的準確性。額外的實驗突顯了其在回溯搜索和線性化評估中的有效性。

總之，這項研究將優化測試時計算重新框架為一個元強化學習 (RL) 問題，並引入累積後悔作為關鍵指標。最先進的結果獎勵 RL 模型未能最小化後悔，通常在標記預算內對新查詢感到困難。這一限制源於僅用結果獎勵進行訓練，缺乏指導逐步進展的細緻性。為了解決這個問題，提出了 MRT，納入一個密集的獎勵獎金，鼓勵增量改進。MRT 提高了測試時計算的效率，在數學推理中實現了 2-3 倍的性能提升和 1.5 倍的標記效率，儘管仍有幾個未解決的問題。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外，隨時在 Twitter 上關注我們，並別忘了加入我們的 80k+ ML SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 優化大型語言模型的測試時間計算一種具有累積後悔最小化的元強化學習方法