DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

DeepSeek 最近推出了它的第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 型號，這些模型旨在解決複雜的推理任務。

DeepSeek-R1-Zero 僅通過大規模的強化學習 (RL) 進行訓練，而不依賴監督式微調 (SFT) 作為初步步驟。根據 DeepSeek 的說法，這種方法自然地出現了「許多強大而有趣的推理行為」，包括自我驗證、反思和生成長鏈思考 (CoT)。

「值得注意的是，[DeepSeek-R1-Zero] 是第一個開放研究，證實了大型語言模型 (LLMs) 的推理能力可以僅通過 RL 獲得，而不需要 SFT，」DeepSeek 的研究人員解釋道。這一里程碑不僅突顯了模型的創新基礎，還為基於 RL 的推理 AI 進步鋪平了道路。

然而，DeepSeek-R1-Zero 的能力也有一些限制。主要挑戰包括「無止境的重複、可讀性差和語言混合」，這些可能在實際應用中造成重大障礙。為了解決這些問題，DeepSeek 開發了其旗艦模型：DeepSeek-R1。

介紹 DeepSeek-R1

DeepSeek-R1 在前一代的基礎上，加入了冷啟動數據作為 RL 訓練之前的步驟。這一額外的預訓練步驟增強了模型的推理能力，並解決了 DeepSeek-R1-Zero 中提到的許多限制。

值得一提的是，DeepSeek-R1 在數學、編碼和一般推理任務的表現達到了與 OpenAI 的著名 o1 系統相當的水平，鞏固了它作為主要競爭者的地位。

DeepSeek 決定將 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六個較小的精簡模型開源。其中，DeepSeek-R1-Distill-Qwen-32B 的表現非常優異，甚至在多個基準測試中超越了 OpenAI 的 o1-mini。

MATH-500 (Pass@1)：DeepSeek-R1 的得分為 97.3%，超過了 OpenAI 的 96.4% 和其他主要競爭對手。

LiveCodeBench (Pass@1-COT)：精簡版的 DeepSeek-R1-Distill-Qwen-32B 得分為 57.2%，在較小的模型中表現突出。

AIME 2024 (Pass@1)：DeepSeek-R1 的得分為 79.8%，在數學問題解決中設定了令人印象深刻的標準。

為更廣泛的產業提供的管道

DeepSeek 分享了其嚴謹的推理模型開發流程，這個流程結合了監督式微調和強化學習。

根據該公司的說法，這個過程包括兩個 SFT 階段，以建立基礎的推理和非推理能力，以及兩個針對發現先進推理模式和將這些能力與人類偏好對齊的 RL 階段。

「我們相信這個管道將通過創造更好的模型來使整個產業受益，」DeepSeek 說明道，暗示了他們的方法在 AI 領域未來進步的潛力。

他們基於 RL 的方法的一個突出成就就是 DeepSeek-R1-Zero 能夠在沒有事先人類指導的情況下執行複雜的推理模式，這是開源 AI 研究社區的首例。

精簡的重要性

DeepSeek 的研究人員還強調了精簡的重要性——將推理能力從較大的模型轉移到較小、更高效的模型的過程，這一策略甚至為較小配置的性能提升解鎖了潛力。

DeepSeek-R1 的較小精簡版——如 1.5B、7B 和 14B 版本——能夠在特定應用中獨當一面。這些精簡模型的表現超過了相同大小模型通過 RL 訓練所獲得的結果。

對於研究人員來說，這些精簡模型的配置範圍從 15 億到 700 億參數，支持 Qwen2.5 和 Llama3 架構。這種靈活性使它們能夠廣泛應用於編碼和自然語言理解等各種任務。

DeepSeek 對其存儲庫和權重採用了 MIT 許可證，擴大了商業使用和下游修改的許可。衍生作品，如使用 DeepSeek-R1 訓練其他大型語言模型 (LLMs)，是被允許的。然而，特定精簡模型的使用者應確保遵守原始基模型的許可，例如 Apache 2.0 和 Llama3 許可證。

(圖片來源：Prateek Katyal)

想了解更多來自業界領袖的 AI 和大數據資訊嗎？請參加在阿姆斯特丹、加州和倫敦舉行的 AI 與大數據博覽會。這個綜合活動與其他領先活動如智能自動化會議、BlockX、數位轉型週和網路安全與雲端博覽會同時舉辦。

在這裡探索由 TechForge 支援的其他即將舉行的企業技術活動和網路研討會。

標籤： ai, 人工智慧, 基準, 比較, deepseek, deepseek-r1, 大型語言模型, llm, 模型, 推理, 推理模型, 強化學習, 測試

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: ai artificial intelligence benchmark comparison deepseek deepseek-r1 DeepSeekR1 large language models llm models openai reasoning reasoning models reinforcement learning test 推理模型在性能上與競爭

DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

如何使用蘋果的 Genmoji 創造新型表情符號

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

簡化憑證生命週期管理與 AppViewX AVX ONE CLM 和 ServiceNow

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

介紹 DeepSeek-R1

為更廣泛的產業提供的管道

精簡的重要性

如何使用蘋果的 Genmoji 創造新型表情符號

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆