星期五, 13 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 智慧產業

阿里巴巴 Qwen QwQ-32B:縮放強化學習展示

2025-03-06
in AI 智慧產業
0 0
0
阿里巴巴 Qwen QwQ-32B:縮放強化學習展示
Share on FacebookShare on Twitter
Your Ad


阿里巴巴的 Qwen 團隊推出 QwQ-32B

阿里巴巴 (Alibaba) 的 Qwen 團隊最近推出了 QwQ-32B,這是一個擁有 320 億個參數的人工智慧 (AI) 模型,表現與更大的 DeepSeek-R1 相媲美。這個突破顯示了在穩健的基礎模型上擴展強化學習 (Reinforcement Learning, RL) 的潛力。

智能推理和工具使用

Qwen 團隊成功將代理功能整合到推理模型中,使得 QwQ-32B 能夠進行批判性思考、使用工具,並根據環境反饋調整其推理。

團隊表示:「擴展 RL 有可能提升模型的表現,超越傳統的預訓練和後訓練方法。最近的研究顯示,RL 可以顯著改善模型的推理能力。」

與 DeepSeek-R1 的比較

QwQ-32B 的表現與擁有 6710 億個參數(啟用 370 億)的 DeepSeek-R1 不相上下,這證明了在穩健的基礎模型上應用 RL 的有效性。這個驚人的結果強調了 RL 在模型大小與性能之間架起橋樑的潛力。

評估基準

該模型在多個基準上進行了評估,包括 AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL,這些基準旨在評估其數學推理、編碼能力和一般問題解決能力。

結果顯示 QwQ-32B 與其他領先模型的表現比較,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始的 DeepSeek-R1。

基準結果

  • AIME24:QwQ-32B 得分 79.5,略低於 DeepSeek-R1-6718 的 79.8,但大幅超過 OpenAI-o1-mini 的 63.6 和其他提煉模型。
  • LiveCodeBench:QwQ-32B 得分 63.4,再次接近 DeepSeek-R1-6718 的 65.9,超過了提煉模型和 OpenAI-o1-mini 的 53.8。
  • LiveBench:QwQ-32B 得分 73.1,而 DeepSeek-R1-6718 得分 71.6,顯著超過提煉模型和 OpenAI-o1-mini 的 57.5。
  • IFEval:QwQ-32B 得分 83.9,非常接近 DeepSeek-R1-6718 的 83.3,並領先其他提煉模型和 OpenAI-o1-mini 的 59.1。
  • BFCL:QwQ-32B 得分 66.4,而 DeepSeek-R1-6718 得分 62.8,顯示出相對於提煉模型和 OpenAI-o1-mini 的 49.3 有明顯的優勢。

Qwen 團隊的訓練方法

Qwen 團隊的訓練方法涉及冷啟動檢查點和基於結果的多階段 RL 過程。初始階段專注於擴展 RL 用於數學和編碼任務,利用準確性驗證器和代碼執行伺服器。第二階段擴展到一般能力,結合來自一般獎勵模型和基於規則的驗證器的獎勵。

團隊解釋道:「我們發現這一階段的 RL 訓練只需少量步驟,就可以提高其他一般能力的表現,例如遵循指令、與人類偏好的對齊以及代理表現,而不會在數學和編碼方面造成顯著的性能下降。」

開放使用的 QwQ-32B

QwQ-32B 是開放權重的,並在 Hugging Face 和 ModelScope 上以 Apache 2.0 授權提供,也可以通過 Qwen Chat 訪問。Qwen 團隊將此視為擴展 RL 以增強推理能力的初步步驟,並計劃進一步探索代理與 RL 整合以進行長期推理。

團隊表示:「隨著我們朝著開發下一代 Qwen 的方向邁進,我們相信結合更強大的基礎模型與強化學習,並利用擴展的計算資源,將使我們更接近實現人工通用智能 (AGI) 的目標。」

了解更多 AI 和大數據的機會

想要從行業領袖那裡了解更多有關 AI 和大數據的知識嗎?請查看在阿姆斯特丹、加州和倫敦舉行的 AI 和大數據博覽會。這個全面的活動與其他領先活動共同舉辦,包括智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會。

探索其他即將舉行的企業科技活動和由 TechForge 提供的網絡研討會。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: aialibabaartificial intelligencemodelsQwenqwqQwQ32B縮放強化學習展示reinforcement learning阿里巴巴
Previous Post

注意落差:安息吧,數據治理

Next Post

與 GPT-4.5 實作體驗,OpenAI 迄今最強大的模型

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示
AI 智慧產業

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

2025-03-17
ServiceNow 部署 AI 代理以提升企業工作流程
AI 智慧產業

ServiceNow 部署 AI 代理以提升企業工作流程

2025-03-14
谷歌推出最新的開放式人工智慧模型
AI 智慧產業

谷歌推出最新的開放式人工智慧模型

2025-03-12
人工智慧語音模型減少醫療轉錄錯誤
AI 智慧產業

人工智慧語音模型減少醫療轉錄錯誤

2025-03-04
安全數據以促進更好的決策與合作:擁抱數據清理空間
AI 智慧產業

安全數據以促進更好的決策與合作:擁抱數據清理空間

2025-03-04
Opera推出瀏覽器整合的AI代理人
AI 智慧產業

Opera推出瀏覽器整合的AI代理人

2025-03-04
Next Post
與 GPT-4.5 實作體驗,OpenAI 迄今最強大的模型

與 GPT-4.5 實作體驗,OpenAI 迄今最強大的模型

美國陸軍使用「CamoGPT」清除訓練材料中的多元化、公平與包容性內容

美國陸軍使用「CamoGPT」清除訓練材料中的多元化、公平與包容性內容

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。