星期二, 3 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

微軟 AI 推出 rStar-Math:一種自我演化的系統 2 深度思考方法,顯著提升小型 LLM 的數學推理能力

2025-01-11
in AI 綜合新聞
0 0
0
微軟 AI 推出 rStar-Math:一種自我演化的系統 2 深度思考方法,顯著提升小型 LLM 的數學推理能力
Share on FacebookShare on Twitter
Your Ad


數學問題解決一直是人工智慧 (AI) 的一個重要標準。準確地解決數學問題不僅需要計算的精確性,還需要深入的推理能力——這是即使是先進的語言模型 (LLMs) 也常常面臨挑戰的領域。許多現有模型依賴心理學家所稱的「系統一思維」,這種思維方式快速但經常容易出錯。這種方法在一次推理中生成解決方案,跳過了解決複雜問題所需的反覆推理過程。此外,訓練高品質模型依賴於精心策劃的數據集,而這些數據集在競賽級數學問題中尤其稀缺。開源方法經常無法超越其「教師」模型的能力,導致進展有限。因此,開發能夠應對這些挑戰的高效 AI 系統仍然是一個難題。

微軟推出了 rStar-Math,這是一個自我進化的系統二風格推理框架,旨在增強小型語言模型 (SLMs) 的數學問題解決能力。rStar-Math 的模型大小僅為 70 億個參數,其性能在挑戰性的數學競賽基準上與 OpenAI 的 o1 模型相當,甚至有時超過它。這個系統利用蒙特卡羅樹搜索 (MCTS) 和自我進化策略來加強 SLM 的推理能力。

與傳統方法依賴於從大型模型中提煉不同,rStar-Math 使小型模型能夠通過逐步推理過程獨立生成高品質的訓練數據。該框架使用代碼增強的思考鏈 (CoT) 數據合成、過程偏好模型 (PPM) 和反覆自我進化技術。這些進步使 rStar-Math 在基準測試中達到顯著的準確性,包括 MATH 數據集和美國數學奧林匹克 (AIME),在這些測試中,它的表現位於高中生的前 20%。

技術創新與好處

rStar-Math 的成功基於三個核心創新:

  • 代碼增強的 CoT 數據合成:該系統使用 MCTS 展開生成逐步驗證的推理路徑。這種方法確保中間步驟通過 Python 代碼執行進行驗證,過濾錯誤並提高整體數據質量。
  • 過程偏好模型 (PPM):與傳統的獎勵模型不同,PPM 使用成對排名來優化推理步驟。這種方法避免了噪音標註,並為步驟級別的優化提供了細緻的反饋,從而導致更可靠的中間評估。
  • 自我進化配方:通過四輪反覆自我進化,rStar-Math 逐步改進其政策模型和 PPM。該系統從 747,000 個數學問題的數據集開始,生成數百萬個高品質解決方案,隨著每次迭代解決越來越具挑戰性的問題,增強推理能力。

這些創新使 rStar-Math 成為應對學術和競賽級數學挑戰的強大工具。此外,通過使小型模型能夠自我生成數據,它減少了對大型資源密集型模型的依賴,擴大了對先進 AI 能力的訪問。

結果與見解

rStar-Math 重新定義了小型模型在數學推理中的基準。在 MATH 數據集上,它的準確率達到 90.0%,相比之下,Qwen2.5-Math-7B 的準確率僅為 58.8%。同樣,它在 Phi3-mini-3.8B 上的表現從 41.4% 提升到 86.4%,顯示出對 OpenAI 的 o1-preview 模型的顯著進步。

在 AIME 競賽中,rStar-Math 解決了 53.3% 的問題,使其位於高中參賽者的前 20%。除了競賽外,該系統在奧林匹克級數學、大學級問題和高考考試等基準測試中表現優異,甚至超越了更大的開源模型。這些結果突顯了它在各種數學挑戰中的泛化能力。

研究的主要發現包括:

  • 逐步推理提高可靠性:經過驗證的推理路徑減少了中間步驟中的錯誤,增強了整體模型性能。
  • 自我反思的出現:rStar-Math 在解決問題的過程中展現了自我修正錯誤推理路徑的能力。
  • 獎勵模型的重要性:PPM 的步驟級評估在實現高準確率方面發揮了關鍵作用,強調了在系統二推理中密集反饋信號的價值。

結論

微軟的 rStar-Math 突顯了小型語言模型在應對複雜數學推理任務中的潛力。通過結合代碼增強的合成、創新的獎勵建模和反覆自我進化,該框架實現了顯著的準確性和可靠性。在 MATH 數據集上達到 90.0% 的準確率,並在 AIME 競賽中表現強勁,rStar-Math 證明了更小、更高效的模型可以取得競爭性結果。

這一進展不僅推動了 AI 能力的邊界,還使得複雜的推理模型變得更易於獲得。隨著 rStar-Math 的演進,其潛在應用可能擴展到數學以外的領域,如科學研究和軟體開發,為應對現實世界挑戰鋪平道路。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: llmrStarMath一種自我演化的系統微軟推出深度思考方法顯著提升小型的數學推理能力
Previous Post

研究顯示大腦如何透過睡眠學習空間的有意義地圖 | 麻省理工學院新聞

Next Post

Google AI 剛剛在 Hugging Face 上發布了 TimesFM-2.0(JAX 和 Pytorch),顯著提高了準確性和最大上下文長度

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
Google AI 剛剛在 Hugging Face 上發布了 TimesFM-2.0(JAX 和 Pytorch),顯著提高了準確性和最大上下文長度

Google AI 剛剛在 Hugging Face 上發布了 TimesFM-2.0(JAX 和 Pytorch),顯著提高了準確性和最大上下文長度

九種不同類型的檢索增強生成 (RAGs)

九種不同類型的檢索增強生成 (RAGs)

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。