Qwen 2.5-Max在某些基準測試中超越了DeepSeek V3

阿里巴巴對於 DeepSeek 的回應是 Qwen 2.5-Max，這是該公司的最新混合專家 (Mixture-of-Experts, MoE) 大型模型。

Qwen 2.5-Max 在超過 20 兆的標記上進行了預訓練，並通過最新技術如監督式微調 (Supervised Fine-Tuning, SFT) 和人類反饋增強學習 (Reinforcement Learning from Human Feedback, RLHF) 進行了微調。

現在，通過阿里雲 (Alibaba Cloud) 提供的 API 和可以在 Qwen Chat 平台上探索的模型，這家中國科技巨頭邀請開發者和研究人員親自體驗其突破性技術。

表現超越同行

當比較 Qwen 2.5-Max 與一些知名 AI 模型在各種基準測試上的表現時，結果相當令人鼓舞。

評估包括了流行的指標，如 MMLU-Pro（用於大學級問題解決）、LiveCodeBench（編碼專業能力）、LiveBench（整體能力）和 Arena-Hard（評估模型與人類偏好的比較）。

根據阿里巴巴的說法，「Qwen 2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中超越了 DeepSeek V3，並在包括 MMLU-Pro 在內的其他評估中也表現出競爭力。」

(來源：阿里巴巴)

這款指令模型設計用於聊天和編碼等下游任務，直接與像 GPT-4o、Claude-3.5-Sonnet 和 DeepSeek V3 等領先模型競爭。在這些模型中，Qwen 2.5-Max 在幾個關鍵領域表現優越。

基礎模型的比較也產生了令人鼓舞的結果。雖然像 GPT-4o 和 Claude-3.5-Sonnet 這樣的專有模型因為訪問限制而無法進行比較，但 Qwen 2.5-Max 被評估與一些領先的公開選擇，如 DeepSeek V3、Llama-3.1-405B（最大的開放權重密集模型）和 Qwen2.5-72B。再一次，阿里巴巴的新模型在各方面都展現卓越表現。

「我們的基礎模型在大多數基準測試中顯示出顯著優勢，」阿里巴巴表示，「我們對於後續訓練技術的進步感到樂觀，這將使下一版本的 Qwen 2.5-Max 更上層樓。」

DeepSeek V3 的興起吸引了整個 AI 社群對大型 MoE 模型的關注。同時，我們也在構建 Qwen2.5-Max，這是一個在大量數據上預訓練的大型 MoE LLM，並通過精心制定的 SFT 和 RLHF 方法進行後續訓練。它實現了競爭力的… pic.twitter.com/oHVl16vfje

— Qwen (@Alibaba_Qwen) 2025年1月28日

讓 Qwen 2.5-Max 更易於接觸

為了讓全球社群更容易使用這個模型，阿里巴巴將 Qwen 2.5-Max 整合到了 Qwen Chat 平台，讓用戶可以直接與模型互動，無論是探索其搜尋能力還是測試其對複雜問題的理解。

對於開發者來說，Qwen 2.5-Max 的 API 現在可以通過阿里雲以「qwen-max-2025-01-25」的模型名稱獲取。有興趣的用戶可以註冊阿里雲帳號，啟用模型工作室服務，並生成 API 金鑰。

這個 API 甚至與 OpenAI 的生態系統兼容，使得現有項目和工作流程的整合變得簡單。這種兼容性降低了那些渴望測試其應用程序與模型能力的使用者的門檻。

阿里巴巴在 Qwen 2.5-Max 上表達了強烈的意圖。該公司對擴大 AI 模型的承諾不僅在於提高性能基準，還在於增強這些系統的基本思考和推理能力。

「數據和模型大小的擴大不僅展示了模型智慧的進步，還反映了我們在開創性研究上的不懈承諾，」阿里巴巴指出。

展望未來，團隊希望推進強化學習的邊界，以促進更先進的推理技能。他們表示，這可能使他們的模型不僅能與人類智能相匹配，還能在解決複雜問題方面超越人類智能。

這對於行業的影響可能是深遠的。隨著擴展方法的改進，Qwen 模型的突破可能會在過去幾週出現的 AI 驅動領域引發進一步的波瀾。

(圖片來源：Maico Amorim)

參考：ChatGPT Gov 旨在現代化美國政府機構

想了解更多來自行業領袖的 AI 和大數據知識嗎？請參加在阿姆斯特丹 (Amsterdam)、加州 (California) 和倫敦 (London) 舉行的 AI 和大數據博覽會。這個綜合性活動與其他領先活動同時舉行，包括智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會。

探索由 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。

標籤： ai, 阿里巴巴 (Alibaba), 人工智慧 (Artificial Intelligence), 模型 (Models), Qwen, Qwen 2.5

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 2.5Max在某些基準測試中超越了DeepSeek ai alibaba artificial intelligence models Qwen qwen 2.5

Qwen 2.5-Max在某些基準測試中超越了DeepSeek V3

保護公司數據資產依賴於技術和人力雙方

DeepSeek Janus-Pro-7B：如何使用？

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

DeepSeek Janus-Pro-7B：如何使用？

恐懼電報冰山一角的審判

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Qwen 2.5-Max在某些基準測試中超越了DeepSeek V3

表現超越同行

讓 Qwen 2.5-Max 更易於接觸

保護公司數據資產依賴於技術和人力雙方

DeepSeek Janus-Pro-7B：如何使用？

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆