微軟與Ubiquant研究人員推出Logic-RL：一個基於規則的強化學習框架，通過在邏輯謎題上的訓練獲得類似R1的推理模式

大型語言模型（LLMs）在後訓練階段取得了顯著的進展，例如 DeepSeek-R1、Kimi-K1.5 和 OpenAI-o1，展現出令人印象深刻的推理能力。雖然 DeepSeek-R1 提供了開源模型權重，但卻不公開訓練代碼和數據集的詳細資訊，這引發了關於如何將推理能力擴展到更小模型、最佳訓練數據結構和可靠複製方法的問題。傳統的數學數據集如 GSM8K 和 Omini-MATH 在邏輯深度上存在不一致的難度，這使得控制實驗變得複雜。因此，針對可控複雜度的數據集需求變得至關重要，以便隔離變數並研究 LLMs 中推理能力的出現。

LLMs 的推理能力通過各種技術得到了提升，其中「思考鏈」（Chain-of-Thought, CoT）推理在將複雜問題分解為可管理步驟方面發揮了關鍵作用。蒙特卡羅樹搜尋（Monte Carlo Tree Search, MCTS）最初在 AlphaGo 中取得成功，現已被調整用於指導基於模型的規劃，通過樹狀搜尋和平衡探索與利用來進行隨機取樣。此外，增強推理能力的後訓練策略包括在專門數據集上進行額外的微調或強化學習（Reinforcement Learning, RL）。像直接偏好優化（Direct Preference Optimization, DPO）、近端策略優化（Proximal Policy Optimization, PPO）、群體相對策略優化（Group Relative Policy Optimization, GRPO）和 REINFORCE++ 等方法顯示出良好的前景，形成了推進模型推理的前沿，並結合測試時的擴展方法。

來自微軟亞洲研究院（Microsoft Research Asia）、Ubiquant 和獨立研究者提出了 Logic-RL，這是一個基於規則的強化學習框架，通過在邏輯謎題上進行訓練來獲取類似 DeepSeek-R1 的推理模式。它採用了 REINFORCE++ 算法和 DeepSeek-R1 的獎勵設計。在訓練過程中，模型自然地將更多計算步驟分配給推理，從生成數百個標記擴展到數千個，這使得思考過程的深入探索和細化成為可能。使用僅 5K 生成的邏輯謎題，他們的 7B 模型顯示出跨領域的泛化能力，在 AIME 上提高了 125%，在 AMC 上提高了 38%，相對於基準模型。這表明，經過 RL 訓練的推理發展出抽象問題解決模式，而不是特定領域的匹配。

研究人員面臨著 Qwen2.5-Math-7B 在生成 Python 代碼塊時與格式要求衝突的挑戰。對 Qwen2.5-7B-Base 和 Qwen2.5-7B-Instruct 進行測試顯示，在 RL 訓練期間，兩者的訓練指標幾乎相同，包括驗證準確率、響應長度增長曲線和獎勵曲線。實施顯示出推理能力的顯著提高，輸出長度從最初的平均 500 個標記增加到約 2000 個標記，僅需 1000 步 RL 訓練。這使得更複雜的行為出現，例如反思和探索替代解決方案，這些行為顯著增強了模型處理複雜任務的能力，並與 DeepSeek-R1 報告的結果密切相關。

結果顯示，雖然 PPO 在準確性和獎勵上取得了顯著優勢，但其訓練速度比 REINFORCE++ 慢了 138%。REINFORCE++ 在穩定性、性能增益和訓練效率方面優於 GRPO，幾乎在所有指標上都超越了它。GRPO 在三種評估的 RL 算法中表現最弱。模型的超出分佈（Super OOD）泛化能力極其強大，在 AIME 數據集上整體提高了 125%，在 AMC 數據集上提高了 38%。這種同步改進表明，RL 過程同時增強了分佈內的性能，並促進了穩健、可轉移的推理策略的出現。

這項研究顯示了 Logic-RL 在通過基於規則的 RL 框架發展複雜推理技能方面的巨大潛力。然而，重要的是要承認這些發現是基於相對小規模的邏輯數據集，這可能限制了它們的適用性。這些結果在大規模現實世界數學或編碼場景中的普遍性仍然是一個開放的問題，需要進一步調查。未來的研究應專注於將這種方法擴展到更多樣化和複雜的數據集，以徹底驗證其在不同領域和問題類型中的有效性和穩健性。通過將這項工作保持為開放研究項目，研究人員旨在使更廣泛的科學社群受益。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，隨時在 Twitter 上關注我們，並別忘了加入我們的 80K+ ML SubReddit。

🚨 介紹 Parlant：一個以 LLM 為首的對話式 AI 框架，旨在為開發者提供對其 AI 客戶服務代理的控制和精確度，利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行介面（CLI）📟 和 Python 及 TypeScript 的本機客戶端 SDK 📦 操作。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 微軟與Ubiquant研究人員推出LogicRL一個基於規則的強化學習框架通過在邏輯謎題上的訓練獲得類似R1的推理模式