阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

阿里巴巴的 Qwen 團隊推出 QwQ-32B

阿里巴巴 (Alibaba) 的 Qwen 團隊最近推出了 QwQ-32B，這是一個擁有 320 億個參數的人工智慧 (AI) 模型，表現與更大的 DeepSeek-R1 相媲美。這個突破顯示了在穩健的基礎模型上擴展強化學習 (Reinforcement Learning, RL) 的潛力。

智能推理和工具使用

Qwen 團隊成功將代理功能整合到推理模型中，使得 QwQ-32B 能夠進行批判性思考、使用工具，並根據環境反饋調整其推理。

團隊表示：「擴展 RL 有可能提升模型的表現，超越傳統的預訓練和後訓練方法。最近的研究顯示，RL 可以顯著改善模型的推理能力。」

與 DeepSeek-R1 的比較

QwQ-32B 的表現與擁有 6710 億個參數（啟用 370 億）的 DeepSeek-R1 不相上下，這證明了在穩健的基礎模型上應用 RL 的有效性。這個驚人的結果強調了 RL 在模型大小與性能之間架起橋樑的潛力。

評估基準

該模型在多個基準上進行了評估，包括 AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL，這些基準旨在評估其數學推理、編碼能力和一般問題解決能力。

結果顯示 QwQ-32B 與其他領先模型的表現比較，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始的 DeepSeek-R1。

基準結果

AIME24：QwQ-32B 得分 79.5，略低於 DeepSeek-R1-6718 的 79.8，但大幅超過 OpenAI-o1-mini 的 63.6 和其他提煉模型。

LiveCodeBench：QwQ-32B 得分 63.4，再次接近 DeepSeek-R1-6718 的 65.9，超過了提煉模型和 OpenAI-o1-mini 的 53.8。

LiveBench：QwQ-32B 得分 73.1，而 DeepSeek-R1-6718 得分 71.6，顯著超過提煉模型和 OpenAI-o1-mini 的 57.5。

IFEval：QwQ-32B 得分 83.9，非常接近 DeepSeek-R1-6718 的 83.3，並領先其他提煉模型和 OpenAI-o1-mini 的 59.1。

BFCL：QwQ-32B 得分 66.4，而 DeepSeek-R1-6718 得分 62.8，顯示出相對於提煉模型和 OpenAI-o1-mini 的 49.3 有明顯的優勢。

Qwen 團隊的訓練方法

Qwen 團隊的訓練方法涉及冷啟動檢查點和基於結果的多階段 RL 過程。初始階段專注於擴展 RL 用於數學和編碼任務，利用準確性驗證器和代碼執行伺服器。第二階段擴展到一般能力，結合來自一般獎勵模型和基於規則的驗證器的獎勵。

團隊解釋道：「我們發現這一階段的 RL 訓練只需少量步驟，就可以提高其他一般能力的表現，例如遵循指令、與人類偏好的對齊以及代理表現，而不會在數學和編碼方面造成顯著的性能下降。」

開放使用的 QwQ-32B

QwQ-32B 是開放權重的，並在 Hugging Face 和 ModelScope 上以 Apache 2.0 授權提供，也可以通過 Qwen Chat 訪問。Qwen 團隊將此視為擴展 RL 以增強推理能力的初步步驟，並計劃進一步探索代理與 RL 整合以進行長期推理。

團隊表示：「隨著我們朝著開發下一代 Qwen 的方向邁進，我們相信結合更強大的基礎模型與強化學習，並利用擴展的計算資源，將使我們更接近實現人工通用智能 (AGI) 的目標。」

了解更多 AI 和大數據的機會

想要從行業領袖那裡了解更多有關 AI 和大數據的知識嗎？請查看在阿姆斯特丹、加州和倫敦舉行的 AI 和大數據博覽會。這個全面的活動與其他領先活動共同舉辦，包括智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會。

探索其他即將舉行的企業科技活動和由 TechForge 提供的網絡研討會。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: ai alibaba artificial intelligence models Qwen qwq QwQ32B縮放強化學習展示 reinforcement learning 阿里巴巴

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

注意落差：安息吧，數據治理

與 GPT-4.5 實作體驗，OpenAI 迄今最強大的模型

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

Opera推出瀏覽器整合的AI代理人

與 GPT-4.5 實作體驗，OpenAI 迄今最強大的模型

美國陸軍使用「CamoGPT」清除訓練材料中的多元化、公平與包容性內容

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

阿里巴巴的 Qwen 團隊推出 QwQ-32B

智能推理和工具使用

與 DeepSeek-R1 的比較

評估基準

基準結果

Qwen 團隊的訓練方法

開放使用的 QwQ-32B

了解更多 AI 和大數據的機會

注意落差：安息吧，數據治理

與 GPT-4.5 實作體驗，OpenAI 迄今最強大的模型

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆