數學推理對於人工智慧 (AI) 來說仍然是一個困難的領域,因為解決問題的過程很複雜,並且需要有條理和邏輯的思考。雖然大型語言模型 (LLMs) 已經取得了顯著的進展,但它們在需要多步推理的任務上常常會遇到困難。強化學習 (RL) 在提升這些能力方面顯示出希望,但傳統方法在獎勵稀疏且只有正確或錯誤的情況下面臨挑戰,提供的反饋有限。
上海人工智慧實驗室開發了基於結果獎勵的強化學習 (OREAL),這是一系列數學推理模型,包括 OREAL-7B 和 OREAL-32B。這個框架設計用於只有正確或錯誤的二元獎勵的情況。與依賴密集反饋的傳統 RL 方法不同,OREAL 使用最佳 N (BoN) 抽樣來進行行為克隆,並重新調整負獎勵以保持梯度一致性。
OREAL-7B 和 OREAL-32B 展示了較小的模型也能與更大的模型競爭。OREAL-7B 在 MATH-500 基準測試中達到了 94.0% 的 pass@1 分數,這一結果與之前的 32B 模型相當,而 OREAL-32B 則達到了 95.0% 的 pass@1,超越了之前通過蒸餾訓練的模型。
技術見解與優勢
OREAL 框架引入了幾個關鍵技術來改善數學推理:
- 最佳 N 抽樣進行行為克隆:BoN 抽樣幫助選擇最佳的正向推理路徑,讓模型能從良好的解答中學習。
- 負樣本的獎勵重塑:通過調整負獎勵,框架確保正確與錯誤樣本之間的梯度一致性,從而優化模型。
- 基於標記的獎勵模型進行思考鏈推理:數學推理通常涉及長序列的邏輯步驟。OREAL 為關鍵推理標記分配重要性權重,解決稀疏二元反饋的挑戰。
- 在政策強化學習:模型根據抽樣查詢動態自我調整,提高訓練效率和適應性。
這些技術使得訓練更加穩定,並在長序列推理任務中表現更佳,讓強化學習成為傳統蒸餾方法的可行替代方案。
性能與評估
OREAL 模型已在幾個基準上進行測試:
- MATH-500 基準:
- OREAL-7B 達到 94.0% 的 pass@1,這一表現水平之前僅在 32B 模型中見過。
- OREAL-32B 達到 95.0% 的 pass@1,創造了數學推理的新標準。
- AIME2024 和 OlympiadBench:
- OREAL 模型超越多個基準,顯示出在各類問題上的強大泛化能力。
- 與 OpenAI o 系列和 DeepSeek 模型的比較:
- OREAL-32B 超越 DeepSeek-R1-Distill-Qwen-32B 和 OpenAI-o1-preview,展示了有效的訓練策略。
- OREAL-7B 的結果與 QwQ-32B-Preview 和 OpenAI-o1-mini 相當,突顯了其強化學習方法的影響。
結論
上海人工智慧實驗室的 OREAL-7B 和 OREAL-32B 模型提供了一種精緻的強化學習方法來解決數學推理問題。通過最佳 N 抽樣、獎勵重塑和標記級別的重要性加權,這些模型即使在較小的規模下也能達到競爭力的表現。OREAL 框架為如何優化強化學習以應對複雜推理任務提供了寶貴的見解,暗示著改善 AI 在結構化領域問題解決能力的新方向。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!