Qwen 2.5-Max 在某些基準測試中優於 DeepSeek V3

阿里巴巴針對 DeepSeek 的回應是 Qwen 2.5-Max，這是該公司最新的專家混合（Mixture-of-Experts, MoE）大規模模型。

Qwen 2.5-Max 擁有超過 20 萬億的預訓練標記，並透過先進技術進行微調，例如監督微調（Supervised Fine-Tuning, SFT）和來自人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）。

目前，通過阿里雲的 API 可以使用這個模型，並且可以通過 Qwen 聊天進行探索，這家中國科技巨頭邀請開發者和研究人員親自體驗其突破性成果。

表現超越同業

在將 Qwen 2.5-Max 的表現與一些最著名的 AI 模型進行比較時，結果令人鼓舞。

評估包括一些受歡迎的指標，例如大學級問題解決的 MMLU-Pro、編碼專業的 LiveCodeBench、整體能力的 LiveBench，以及評估模型對人類偏好的 Arena-Hard。

根據阿里巴巴的說法，“Qwen 2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中超越了 DeepSeek V3，同時在其他評估中，包括 MMLU-Pro 也表現出競爭力。”

(圖片來源：阿里巴巴)

這個指令模型專為聊天和編碼等下游任務設計，直接與領先模型如 GPT-4o、Claude-3.5-Sonnet 和 DeepSeek V3 競爭。在這些模型中，Qwen 2.5-Max 在幾個關鍵領域超越了競爭對手。

基礎模型的比較也得出了令人振奮的結果。儘管像 GPT-4o 和 Claude-3.5-Sonnet 等專有模型因訪問限制而無法接觸，但 Qwen 2.5-Max 被評估與一些領先的公開選擇，如 DeepSeek V3、Llama-3.1-405B（最大的開放權重密集模型）和 Qwen2.5-72B 進行比較。再次，阿里巴巴的新模型在各方面表現出色。

阿里巴巴表示：“我們的基礎模型在大多數基準中顯示出明顯的優勢，並且我們對後續訓練技術的進步感到樂觀，這將使下一版本的 Qwen 2.5-Max 更上一層樓。”

DeepSeek V3 的出現引起了整個 AI 界對大規模 MoE 模型的關注。同時，我們也在建立 Qwen2.5-Max，這是一個在大量數據上進行預訓練並通過精心設計的 SFT 和 RLHF 進行後訓練的大型 MoE LLM。它的競爭力… pic.twitter.com/oHVl16vfje

— Qwen (@Alibaba_Qwen) 2025年1月28日

讓 Qwen 2.5-Max 更加易於接觸

為了使這個模型更容易讓全球社群使用，阿里巴巴將 Qwen 2.5-Max 整合進 Qwen 聊天平台，讓用戶可以直接與這個模型互動，無論是探索它的搜索能力，還是測試它對複雜問題的理解。

對於開發者來說，Qwen 2.5-Max 的 API 現在可以通過阿里雲以模型名稱“qwen-max-2025-01-25”使用。感興趣的用戶可以通過註冊阿里雲帳戶、啟動模型工作室服務並生成 API 金鑰來開始使用。

這個 API 甚至與 OpenAI 的生態系統相容，使得現有項目和工作流程的整合變得簡單。這種相容性降低了想要測試其應用程式與模型能力的開發者的門檻。

阿里巴巴對 Qwen 2.5-Max 發出了強烈的意圖聲明。該公司不僅致力於提升性能基準，還希望增強這些系統的基本思考和推理能力。

阿里巴巴指出：“數據和模型大小的擴展不僅展示了模型智慧的進步，也反映了我們在開創性研究上的不懈努力。”

展望未來，團隊希望推動強化學習的邊界，以培養更高級的推理技能。他們表示，這可能使他們的模型不僅能夠匹敵，甚至超越人類在解決複雜問題方面的智慧。

這對整個行業的影響可能是深遠的。隨著擴展方法的改進和 Qwen 模型的創新，我們可能會看到在近期幾週內全球 AI 驅動領域進一步的波動。

(照片來源：Maico Amorim)

另見：ChatGPT 政府旨在現代化美國政府機構

想了解更多有關 AI 和大數據的行業領袖？參加在阿姆斯特丹、加州和倫敦舉行的 AI & 大數據博覽會。這個全面的活動與其他領先活動如智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會共同舉辦。

在這裡探索其他即將舉行的企業科技活動和網絡研討會。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 2.5Max ai alibaba artificial intelligence deepseek models Qwen qwen 2.5 在某些基準測試中優於

Qwen 2.5-Max 在某些基準測試中優於 DeepSeek V3

保護公司數據資產依賴於技術和人力雙方

DeepSeek Janus-Pro-7B：如何使用？

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

DeepSeek Janus-Pro-7B：如何使用？

恐懼電報冰山一角的審判

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Qwen 2.5-Max 在某些基準測試中優於 DeepSeek V3

表現超越同業

讓 Qwen 2.5-Max 更加易於接觸

保護公司數據資產依賴於技術和人力雙方

DeepSeek Janus-Pro-7B：如何使用？

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆