微軟 AI 推出 rStar-Math：一種自我演化的系統 2 深度思考方法，顯著提升小型 LLM 的數學推理能力

數學問題解決一直是人工智慧 (AI) 的一個重要標準。準確地解決數學問題不僅需要計算的精確性，還需要深入的推理能力——這是即使是先進的語言模型 (LLMs) 也常常面臨挑戰的領域。許多現有模型依賴心理學家所稱的「系統一思維」，這種思維方式快速但經常容易出錯。這種方法在一次推理中生成解決方案，跳過了解決複雜問題所需的反覆推理過程。此外，訓練高品質模型依賴於精心策劃的數據集，而這些數據集在競賽級數學問題中尤其稀缺。開源方法經常無法超越其「教師」模型的能力，導致進展有限。因此，開發能夠應對這些挑戰的高效 AI 系統仍然是一個難題。

微軟推出了 rStar-Math，這是一個自我進化的系統二風格推理框架，旨在增強小型語言模型 (SLMs) 的數學問題解決能力。rStar-Math 的模型大小僅為 70 億個參數，其性能在挑戰性的數學競賽基準上與 OpenAI 的 o1 模型相當，甚至有時超過它。這個系統利用蒙特卡羅樹搜索 (MCTS) 和自我進化策略來加強 SLM 的推理能力。

與傳統方法依賴於從大型模型中提煉不同，rStar-Math 使小型模型能夠通過逐步推理過程獨立生成高品質的訓練數據。該框架使用代碼增強的思考鏈 (CoT) 數據合成、過程偏好模型 (PPM) 和反覆自我進化技術。這些進步使 rStar-Math 在基準測試中達到顯著的準確性，包括 MATH 數據集和美國數學奧林匹克 (AIME)，在這些測試中，它的表現位於高中生的前 20%。

技術創新與好處

rStar-Math 的成功基於三個核心創新：

代碼增強的 CoT 數據合成：該系統使用 MCTS 展開生成逐步驗證的推理路徑。這種方法確保中間步驟通過 Python 代碼執行進行驗證，過濾錯誤並提高整體數據質量。

過程偏好模型 (PPM)：與傳統的獎勵模型不同，PPM 使用成對排名來優化推理步驟。這種方法避免了噪音標註，並為步驟級別的優化提供了細緻的反饋，從而導致更可靠的中間評估。

自我進化配方：通過四輪反覆自我進化，rStar-Math 逐步改進其政策模型和 PPM。該系統從 747,000 個數學問題的數據集開始，生成數百萬個高品質解決方案，隨著每次迭代解決越來越具挑戰性的問題，增強推理能力。

這些創新使 rStar-Math 成為應對學術和競賽級數學挑戰的強大工具。此外，通過使小型模型能夠自我生成數據，它減少了對大型資源密集型模型的依賴，擴大了對先進 AI 能力的訪問。

結果與見解

rStar-Math 重新定義了小型模型在數學推理中的基準。在 MATH 數據集上，它的準確率達到 90.0%，相比之下，Qwen2.5-Math-7B 的準確率僅為 58.8%。同樣，它在 Phi3-mini-3.8B 上的表現從 41.4% 提升到 86.4%，顯示出對 OpenAI 的 o1-preview 模型的顯著進步。

在 AIME 競賽中，rStar-Math 解決了 53.3% 的問題，使其位於高中參賽者的前 20%。除了競賽外，該系統在奧林匹克級數學、大學級問題和高考考試等基準測試中表現優異，甚至超越了更大的開源模型。這些結果突顯了它在各種數學挑戰中的泛化能力。

研究的主要發現包括：

逐步推理提高可靠性：經過驗證的推理路徑減少了中間步驟中的錯誤，增強了整體模型性能。

自我反思的出現：rStar-Math 在解決問題的過程中展現了自我修正錯誤推理路徑的能力。

獎勵模型的重要性：PPM 的步驟級評估在實現高準確率方面發揮了關鍵作用，強調了在系統二推理中密集反饋信號的價值。

結論

微軟的 rStar-Math 突顯了小型語言模型在應對複雜數學推理任務中的潛力。通過結合代碼增強的合成、創新的獎勵建模和反覆自我進化，該框架實現了顯著的準確性和可靠性。在 MATH 數據集上達到 90.0% 的準確率，並在 AIME 競賽中表現強勁，rStar-Math 證明了更小、更高效的模型可以取得競爭性結果。

這一進展不僅推動了 AI 能力的邊界，還使得複雜的推理模型變得更易於獲得。隨著 rStar-Math 的演進，其潛在應用可能擴展到數學以外的領域，如科學研究和軟體開發，為應對現實世界挑戰鋪平道路。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！