阿里巴巴針對 DeepSeek 的回應是 Qwen 2.5-Max,這是該公司最新的專家混合(Mixture-of-Experts, MoE)大規模模型。
Qwen 2.5-Max 擁有超過 20 萬億的預訓練標記,並透過先進技術進行微調,例如監督微調(Supervised Fine-Tuning, SFT)和來自人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)。
目前,通過阿里雲的 API 可以使用這個模型,並且可以通過 Qwen 聊天進行探索,這家中國科技巨頭邀請開發者和研究人員親自體驗其突破性成果。
表現超越同業
在將 Qwen 2.5-Max 的表現與一些最著名的 AI 模型進行比較時,結果令人鼓舞。
評估包括一些受歡迎的指標,例如大學級問題解決的 MMLU-Pro、編碼專業的 LiveCodeBench、整體能力的 LiveBench,以及評估模型對人類偏好的 Arena-Hard。
根據阿里巴巴的說法,“Qwen 2.5-Max 在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基準測試中超越了 DeepSeek V3,同時在其他評估中,包括 MMLU-Pro 也表現出競爭力。”
這個指令模型專為聊天和編碼等下游任務設計,直接與領先模型如 GPT-4o、Claude-3.5-Sonnet 和 DeepSeek V3 競爭。在這些模型中,Qwen 2.5-Max 在幾個關鍵領域超越了競爭對手。
基礎模型的比較也得出了令人振奮的結果。儘管像 GPT-4o 和 Claude-3.5-Sonnet 等專有模型因訪問限制而無法接觸,但 Qwen 2.5-Max 被評估與一些領先的公開選擇,如 DeepSeek V3、Llama-3.1-405B(最大的開放權重密集模型)和 Qwen2.5-72B 進行比較。再次,阿里巴巴的新模型在各方面表現出色。
阿里巴巴表示:“我們的基礎模型在大多數基準中顯示出明顯的優勢,並且我們對後續訓練技術的進步感到樂觀,這將使下一版本的 Qwen 2.5-Max 更上一層樓。”
讓 Qwen 2.5-Max 更加易於接觸
為了使這個模型更容易讓全球社群使用,阿里巴巴將 Qwen 2.5-Max 整合進 Qwen 聊天平台,讓用戶可以直接與這個模型互動,無論是探索它的搜索能力,還是測試它對複雜問題的理解。
對於開發者來說,Qwen 2.5-Max 的 API 現在可以通過阿里雲以模型名稱“qwen-max-2025-01-25”使用。感興趣的用戶可以通過註冊阿里雲帳戶、啟動模型工作室服務並生成 API 金鑰來開始使用。
這個 API 甚至與 OpenAI 的生態系統相容,使得現有項目和工作流程的整合變得簡單。這種相容性降低了想要測試其應用程式與模型能力的開發者的門檻。
阿里巴巴對 Qwen 2.5-Max 發出了強烈的意圖聲明。該公司不僅致力於提升性能基準,還希望增強這些系統的基本思考和推理能力。
阿里巴巴指出:“數據和模型大小的擴展不僅展示了模型智慧的進步,也反映了我們在開創性研究上的不懈努力。”
展望未來,團隊希望推動強化學習的邊界,以培養更高級的推理技能。他們表示,這可能使他們的模型不僅能夠匹敵,甚至超越人類在解決複雜問題方面的智慧。
這對整個行業的影響可能是深遠的。隨著擴展方法的改進和 Qwen 模型的創新,我們可能會看到在近期幾週內全球 AI 驅動領域進一步的波動。
(照片來源:Maico Amorim)
另見:ChatGPT 政府旨在現代化美國政府機構

想了解更多有關 AI 和大數據的行業領袖?參加在阿姆斯特丹、加州和倫敦舉行的 AI & 大數據博覽會。這個全面的活動與其他領先活動如智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會共同舉辦。
在這裡探索其他即將舉行的企業科技活動和網絡研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!