DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

DeepSeek 發表了它的第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 模型，這些模型旨在解決複雜的推理任務。

DeepSeek-R1-Zero 只透過大規模的強化學習 (RL) 進行訓練，並沒有依賴監督式微調 (SFT) 作為初步步驟。根據 DeepSeek 的說法，這種方法自然產生了“許多強大而有趣的推理行為”，包括自我驗證、反思以及生成長鏈思考 (CoT)。

“值得注意的是，[DeepSeek-R1-Zero] 是第一個公開研究，證實 LLM 的推理能力可以僅透過 RL 來激勵，而不需要 SFT，”DeepSeek 的研究人員解釋道。這一里程碑不僅強調了該模型的創新基礎，還為以 RL 為重點的推理 AI 進步鋪平了道路。

然而，DeepSeek-R1-Zero 的能力也有一些限制。主要挑戰包括“無盡的重複、可讀性差和語言混合”，這可能在現實應用中造成重大障礙。為了解決這些缺點，DeepSeek 開發了它的旗艦模型：DeepSeek-R1。

介紹 DeepSeek-R1

DeepSeek-R1 在前一代的基礎上，加入了在 RL 訓練之前的冷啟動數據。這一步驟增強了模型的推理能力，並解決了 DeepSeek-R1-Zero 中提到的許多限制。

值得注意的是，DeepSeek-R1 在數學、編碼和一般推理任務中達到了與 OpenAI 受到廣泛讚譽的 o1 系統相當的性能，穩固了它作為主要競爭者的地位。

DeepSeek 已選擇將 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六個較小的提煉模型開源。在這些模型中，DeepSeek-R1-Distill-Qwen-32B 表現出色，甚至在多個基準測試中超越了 OpenAI 的 o1-mini。

MATH-500 (Pass@1)：DeepSeek-R1 達到 97.3%，超越 OpenAI 的 96.4% 和其他主要競爭者。

LiveCodeBench (Pass@1-COT)：提煉版本 DeepSeek-R1-Distill-Qwen-32B 得分 57.2%，在較小模型中表現突出。

AIME 2024 (Pass@1)：DeepSeek-R1 達到 79.8%，在數學問題解決中樹立了令人印象深刻的標準。

為更廣泛的行業帶來好處的管道

DeepSeek 分享了其推理模型開發的嚴格流程，該流程結合了監督式微調和強化學習。

根據該公司的說法，這個過程包括兩個 SFT 階段以建立基礎的推理和非推理能力，以及兩個針對發現高級推理模式和將這些能力與人類偏好對齊的 RL 階段。

“我們相信這個管道將通過創造更好的模型來惠及行業，”DeepSeek 表示，暗示其方法的潛力能激勵 AI 領域的未來進步。

他們以 RL 為重點的方法的一個突出成就是，DeepSeek-R1-Zero 能在沒有先前人類指導的情況下執行複雜的推理模式，這對於開源 AI 研究社區來說是首次。

提煉的重要性

DeepSeek 的研究人員還強調了提煉的重要性——這是一個將推理能力從較大模型轉移到較小、更有效模型的過程，這一策略即使在較小的配置中也解鎖了性能增長。

DeepSeek-R1 的較小提煉版本——如 1.5B、7B 和 14B 版本——能在小眾應用中展現出色的表現。這些提煉模型的表現超過了通過 RL 訓練的同類模型。

🔥 贈品：開源提煉模型！

🔬 從 DeepSeek-R1 提煉出的 6 個小模型完全開源📏 32B 和 70B 模型與 OpenAI-o1-mini 不相上下🤝 使開源社區受益

🌍 推動 **開放 AI** 的邊界！

🐋 2/n pic.twitter.com/tfXLM2xtZZ

— DeepSeek (@deepseek_ai) January 20, 2025

對於研究人員來說，這些提煉模型的配置範圍從 1.5 億到 700 億參數，支持 Qwen2.5 和 Llama3 架構。這種靈活性使其能在從編碼到自然語言理解的各種任務中靈活應用。

DeepSeek 已經對其庫和權重採用了 MIT 許可證，擴展了商業使用和下游修改的權限。衍生作品，如使用 DeepSeek-R1 訓練其他大型語言模型 (LLMs) 是被允許的。然而，使用特定提煉模型的用戶應確保遵守原始基模型的許可證，例如 Apache 2.0 和 Llama3 許可證。

(照片來源：Prateek Katyal)

另見：微軟利用 MatterGen 推進材料發現

想了解更多來自行業領袖的 AI 和大數據資訊嗎？請查看即將在阿姆斯特丹、加利福尼亞和倫敦舉行的 AI & Big Data Expo。這是一個綜合活動，還與其他領先活動如智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會共同舉行。

探索由 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: ai artificial intelligence benchmark comparison deepseek deepseek-r1 DeepSeekR1 large language models llm models openai reasoning reasoning models reinforcement learning test 推理模型在性能上與競爭

DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

如何使用蘋果的 Genmoji 創造新型表情符號

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

簡化憑證生命週期管理與 AppViewX AVX ONE CLM 和 ServiceNow

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

介紹 DeepSeek-R1

為更廣泛的行業帶來好處的管道

提煉的重要性

如何使用蘋果的 Genmoji 創造新型表情符號

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆