阿里巴巴的 Qwen 團隊推出 QwQ-32B
阿里巴巴 (Alibaba) 的 Qwen 團隊最近推出了 QwQ-32B,這是一個擁有 320 億個參數的人工智慧 (AI) 模型,表現與更大的 DeepSeek-R1 相媲美。這個突破顯示了在穩健的基礎模型上擴展強化學習 (Reinforcement Learning, RL) 的潛力。
智能推理和工具使用
Qwen 團隊成功將代理功能整合到推理模型中,使得 QwQ-32B 能夠進行批判性思考、使用工具,並根據環境反饋調整其推理。
團隊表示:「擴展 RL 有可能提升模型的表現,超越傳統的預訓練和後訓練方法。最近的研究顯示,RL 可以顯著改善模型的推理能力。」
與 DeepSeek-R1 的比較
QwQ-32B 的表現與擁有 6710 億個參數(啟用 370 億)的 DeepSeek-R1 不相上下,這證明了在穩健的基礎模型上應用 RL 的有效性。這個驚人的結果強調了 RL 在模型大小與性能之間架起橋樑的潛力。
評估基準
該模型在多個基準上進行了評估,包括 AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL,這些基準旨在評估其數學推理、編碼能力和一般問題解決能力。
結果顯示 QwQ-32B 與其他領先模型的表現比較,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始的 DeepSeek-R1。
基準結果
- AIME24:QwQ-32B 得分 79.5,略低於 DeepSeek-R1-6718 的 79.8,但大幅超過 OpenAI-o1-mini 的 63.6 和其他提煉模型。
- LiveCodeBench:QwQ-32B 得分 63.4,再次接近 DeepSeek-R1-6718 的 65.9,超過了提煉模型和 OpenAI-o1-mini 的 53.8。
- LiveBench:QwQ-32B 得分 73.1,而 DeepSeek-R1-6718 得分 71.6,顯著超過提煉模型和 OpenAI-o1-mini 的 57.5。
- IFEval:QwQ-32B 得分 83.9,非常接近 DeepSeek-R1-6718 的 83.3,並領先其他提煉模型和 OpenAI-o1-mini 的 59.1。
- BFCL:QwQ-32B 得分 66.4,而 DeepSeek-R1-6718 得分 62.8,顯示出相對於提煉模型和 OpenAI-o1-mini 的 49.3 有明顯的優勢。
Qwen 團隊的訓練方法
Qwen 團隊的訓練方法涉及冷啟動檢查點和基於結果的多階段 RL 過程。初始階段專注於擴展 RL 用於數學和編碼任務,利用準確性驗證器和代碼執行伺服器。第二階段擴展到一般能力,結合來自一般獎勵模型和基於規則的驗證器的獎勵。
團隊解釋道:「我們發現這一階段的 RL 訓練只需少量步驟,就可以提高其他一般能力的表現,例如遵循指令、與人類偏好的對齊以及代理表現,而不會在數學和編碼方面造成顯著的性能下降。」
開放使用的 QwQ-32B
QwQ-32B 是開放權重的,並在 Hugging Face 和 ModelScope 上以 Apache 2.0 授權提供,也可以通過 Qwen Chat 訪問。Qwen 團隊將此視為擴展 RL 以增強推理能力的初步步驟,並計劃進一步探索代理與 RL 整合以進行長期推理。
團隊表示:「隨著我們朝著開發下一代 Qwen 的方向邁進,我們相信結合更強大的基礎模型與強化學習,並利用擴展的計算資源,將使我們更接近實現人工通用智能 (AGI) 的目標。」
了解更多 AI 和大數據的機會
想要從行業領袖那裡了解更多有關 AI 和大數據的知識嗎?請查看在阿姆斯特丹、加州和倫敦舉行的 AI 和大數據博覽會。這個全面的活動與其他領先活動共同舉辦,包括智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會。
探索其他即將舉行的企業科技活動和由 TechForge 提供的網絡研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!