清華大學的這篇AI論文提出T1以通過鼓勵探索來擴展強化學習並理解推理擴展

大型語言模型（LLMs）是專門為數學、程式設計和一般自主代理開發的，並且在測試時需要改善推理能力。各種方法包括在回應某些提示時產生推理步驟，或使用抽樣和訓練模型來生成相同的步驟。強化學習更有可能促進自我探索和從反饋中學習的能力；然而，它們對於複雜推理的影響仍然有限。在測試時擴展LLMs仍然是一個問題，因為增加計算努力不一定會轉化為更好的模型。深入推理和更長的回應可能會改善表現，但有效達成這一點一直具有挑戰性。

目前改善語言模型推理的方法主要集中在模仿學習上，模型複製使用提示生成的推理步驟或拒絕抽樣。基於推理相關數據的預訓練和使用強化學習的微調有助於提高理解能力，但對於複雜推理的擴展效果不佳。後訓練技術如生成問題-答案對和添加驗證者可以提高準確性，但在很大程度上依賴外部監督。通過更多數據和更大模型擴展語言模型可以提高表現，但基於強化學習的擴展和測試時推理仍然無效。重複抽樣增加計算成本而不提高推理能力，使得當前技術在深入推理和長篇回應方面效率低下。

為了解決這些問題，清華大學的研究人員和智譜人工智慧（Zhipu AI）提出了T1方法。它通過擴大探索範圍和改善推理擴展來增強強化學習。T1首先基於鏈式思考數據進行語言模型訓練，使用試錯法和自我驗證。這在訓練階段通常被現有方法否定。因此，模型找到了正確的答案並理解了達到這些答案的步驟。與之前專注於獲得正確解決方案的方法不同，T1通過對每個提示產生多個回應並在強化學習之前分析錯誤來鼓勵多樣的推理路徑。這個框架在兩個方面增強了強化學習訓練：首先，通過過度抽樣增加回應的多樣性；其次，通過基於熵的輔助損失調節訓練穩定性。T1不再維持固定的參考模型，而是使用指數移動平均動態更新參考模型，這樣訓練不會變得僵化。T1對冗餘、過長或低質量的答案施加負獎勵，保持模型朝著有意義的推理方向發展。

研究人員使用開放模型如GLM-4-9B和Qwen2.5-14B/32B構建了T1，專注於通過強化學習進行數學推理。他們從MATH-train和NuminaMath中提取訓練數據，策劃了30,000個實例，通過提取答案和過濾噪音數據來完成。監督微調（SFT）使用了餘弦衰減調度，而強化學習訓練則涉及基於正確性的獎勵的策略梯度下降。在評估中，T1在數學基準測試中超越了其基線模型，Qwen2.5-32B的表現比SFT版本提高了10-20%。增加抽樣回應的數量（K）增強了探索和泛化，特別是在GPQA上。抽樣溫度1.2穩定了訓練，而過高或過低的值則導致性能問題。在強化學習訓練期間施加了懲罰，以控制回應長度並提高一致性。結果顯示，隨著推理擴展，性能顯著提高，更多的計算資源導致更好的結果。

總結來說，提出的T1方法通過擴展強化學習來增強大型語言模型，並改善探索和穩定性。懲罰和過度抽樣可以平滑瓶頸樣本的影響。它顯示出強大的性能和有希望的擴展行為。測量推理擴展的方法顯示，進一步的強化學習訓練提高了推理準確性和擴展趨勢。T1在挑戰性基準測試中超越了最先進的模型，克服了當前推理方法的弱點。這項工作可以成為進一步研究的起點，提供一個框架來提升推理能力和擴展大型語言模型。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 清華大學的這篇AI論文提出T1以通過鼓勵探索來擴展強化學習並理解推理擴展