星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》,以及最先進的 7B 和 72B PRMs

2025-01-15
in AI 綜合新聞
0 0
0
阿里巴巴 Qwen 團隊剛發布《數學推理中開發過程獎勵模型的課程》,以及最先進的 7B 和 72B PRMs
Share on FacebookShare on Twitter
Your Ad


數學推理一直是大型語言模型 (LLMs) 面臨的一個重大挑戰。在推理過程中的錯誤會影響最終結果的準確性和可靠性,這對於需要精確度的應用(如教育和科學計算)特別有問題。傳統的評估方法,例如最佳 N (BoN) 策略,往往無法捕捉推理過程的複雜性。因此,研究人員開發了過程獎勵模型 (PRMs),旨在通過評估中間步驟的正確性來提供詳細的監督。然而,建立有效的 PRMs 仍然是一項困難的任務,主要是因為數據標註和評估方法的挑戰。這些障礙突顯了需要更好地與穩健的過程驅動推理相一致的模型。

阿里巴巴 Qwen 團隊最近發表了一篇題為《數學推理中開發過程獎勵模型的教訓》的論文。他們在這項研究中介紹了兩個具有 7B 和 72B 參數的 PRMs,這是他們 Qwen2.5-Math-PRM 系列的一部分。這些模型解決了現有 PRM 框架中的重大限制,採用創新技術來提高推理模型的準確性和泛化能力。

他們的方法的核心是一種混合方法,將蒙特卡羅 (Monte Carlo, MC) 估計與一種新穎的「LLM 作為評判者」機制相結合。這種整合提高了逐步標註的質量,使得最終的 PRMs 更有效地識別和減少數學推理中的錯誤。這些模型在 PROCESSBENCH 等基準測試中表現出色,該測試評估模型識別中間推理錯誤的能力。

技術創新與好處

Qwen 團隊的方法涉及使用微調的 LLM 生成數學問題的多個解決方案,並通過雙重方法評估每一步的正確性。這種方法解決了傳統 MC 估計的局限性,因為它通常依賴未來的結果而產生不準確的標籤。

主要創新包括:

  • 共識過濾:這種機制僅在 MC 估計和 LLM 作為評判者都同意步驟的正確性時保留數據,顯著減少了訓練過程中的噪音。
  • 硬標註:由兩種機制驗證的確定性標籤增強了模型區分有效和無效推理步驟的能力。
  • 高效數據利用:通過將 MC 估計與 LLM 作為評判者相結合,共識過濾策略確保了高質量數據,同時保持可擴展性。這種方法使得即使在較小的數據集上也能開發出表現良好的 PRMs。

這些創新促進了不僅準確而且穩健的 PRMs 的創建,使其適合於自動輔導和複雜問題解決等應用。

結果與見解

Qwen2.5-Math-PRM 模型在 PROCESSBENCH 和其他評估指標上表現出色。例如,Qwen2.5-Math-PRM-72B 模型的 F1 分數達到 78.3%,超過了許多開源替代品。在需要逐步識別錯誤的任務中,它的表現超過了像 GPT-4-0806 這樣的專有模型。

共識過濾方法在提高訓練質量方面發揮了關鍵作用,將數據噪音減少了約 60%。雖然僅依賴 MC 估計可能有幫助,但對於準確標註推理步驟來說是不夠的。將 MC 估計與 LLM 作為評判者相結合顯著提高了模型檢測錯誤的能力,這在 PROCESSBENCH 分數的提升中得到了體現。

Qwen2.5-Math-PRM 系列還強調了逐步評估,而不是基於結果的 BoN 策略。這一轉變解決了早期模型的不足,這些模型往往優先考慮最終答案,而忽視了推理的準確性。

結論

Qwen2.5-Math-PRM 模型的引入代表了 LLM 在數學推理方面的重大進展。通過解決 PRM 開發中的挑戰,例如噪音數據標註和過程到結果的偏見,阿里巴巴 Qwen 團隊提供了一個實用的框架來提高推理的準確性和可靠性。這些模型不僅超越了現有的替代品,還為未來的研究提供了有價值的方法論。隨著 PRMs 的持續進步,它們在更廣泛的人工智慧應用中的潛力將提升機器推理系統的可靠性和有效性。

查看 Hugging Face 上的論文和模型。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 65k+ 機器學習 SubReddit。

🚨 推薦開源平台:Parlant 是一個框架,改變了 AI 代理在面對客戶場景中做決策的方式。(廣告)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 72BPRMsQwen和團隊剛發布數學推理中開發過程獎勵模型的課程以及最先進的阿里巴巴
Previous Post

透過多智能體微調提升語言模型的性能與多樣性

Next Post

另一個推動您立即開始後量子密碼學(PQC)準備的機會

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
另一個推動您立即開始後量子密碼學(PQC)準備的機會

另一個推動您立即開始後量子密碼學(PQC)準備的機會

高效區塊鏈狀態管理與快速梅克爾資料庫 (QMDB)

高效區塊鏈狀態管理與快速梅克爾資料庫 (QMDB)

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。