星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 智慧產業

DeepSeek-R1 推理模型在性能上與 OpenAI 競爭

2025-01-20
in AI 智慧產業
0 0
0
DeepSeek-R1 推理模型在性能上與 OpenAI 競爭
Share on FacebookShare on Twitter
Your Ad


DeepSeek 發表了它的第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 模型,這些模型旨在解決複雜的推理任務。

DeepSeek-R1-Zero 只透過大規模的強化學習 (RL) 進行訓練,並沒有依賴監督式微調 (SFT) 作為初步步驟。根據 DeepSeek 的說法,這種方法自然產生了“許多強大而有趣的推理行為”,包括自我驗證、反思以及生成長鏈思考 (CoT)。

“值得注意的是,[DeepSeek-R1-Zero] 是第一個公開研究,證實 LLM 的推理能力可以僅透過 RL 來激勵,而不需要 SFT,”DeepSeek 的研究人員解釋道。這一里程碑不僅強調了該模型的創新基礎,還為以 RL 為重點的推理 AI 進步鋪平了道路。

然而,DeepSeek-R1-Zero 的能力也有一些限制。主要挑戰包括“無盡的重複、可讀性差和語言混合”,這可能在現實應用中造成重大障礙。為了解決這些缺點,DeepSeek 開發了它的旗艦模型:DeepSeek-R1。

介紹 DeepSeek-R1

DeepSeek-R1 在前一代的基礎上,加入了在 RL 訓練之前的冷啟動數據。這一步驟增強了模型的推理能力,並解決了 DeepSeek-R1-Zero 中提到的許多限制。

值得注意的是,DeepSeek-R1 在數學、編碼和一般推理任務中達到了與 OpenAI 受到廣泛讚譽的 o1 系統相當的性能,穩固了它作為主要競爭者的地位。

DeepSeek 已選擇將 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六個較小的提煉模型開源。在這些模型中,DeepSeek-R1-Distill-Qwen-32B 表現出色,甚至在多個基準測試中超越了 OpenAI 的 o1-mini。

MATH-500 (Pass@1):DeepSeek-R1 達到 97.3%,超越 OpenAI 的 96.4% 和其他主要競爭者。

LiveCodeBench (Pass@1-COT):提煉版本 DeepSeek-R1-Distill-Qwen-32B 得分 57.2%,在較小模型中表現突出。

AIME 2024 (Pass@1):DeepSeek-R1 達到 79.8%,在數學問題解決中樹立了令人印象深刻的標準。

為更廣泛的行業帶來好處的管道

DeepSeek 分享了其推理模型開發的嚴格流程,該流程結合了監督式微調和強化學習。

根據該公司的說法,這個過程包括兩個 SFT 階段以建立基礎的推理和非推理能力,以及兩個針對發現高級推理模式和將這些能力與人類偏好對齊的 RL 階段。

“我們相信這個管道將通過創造更好的模型來惠及行業,”DeepSeek 表示,暗示其方法的潛力能激勵 AI 領域的未來進步。

他們以 RL 為重點的方法的一個突出成就是,DeepSeek-R1-Zero 能在沒有先前人類指導的情況下執行複雜的推理模式,這對於開源 AI 研究社區來說是首次。

提煉的重要性

DeepSeek 的研究人員還強調了提煉的重要性——這是一個將推理能力從較大模型轉移到較小、更有效模型的過程,這一策略即使在較小的配置中也解鎖了性能增長。

DeepSeek-R1 的較小提煉版本——如 1.5B、7B 和 14B 版本——能在小眾應用中展現出色的表現。這些提煉模型的表現超過了通過 RL 訓練的同類模型。

🔥 贈品:開源提煉模型!

🔬 從 DeepSeek-R1 提煉出的 6 個小模型完全開源📏 32B 和 70B 模型與 OpenAI-o1-mini 不相上下🤝 使開源社區受益

🌍 推動 **開放 AI** 的邊界!

🐋 2/n pic.twitter.com/tfXLM2xtZZ

— DeepSeek (@deepseek_ai) January 20, 2025

對於研究人員來說,這些提煉模型的配置範圍從 1.5 億到 700 億參數,支持 Qwen2.5 和 Llama3 架構。這種靈活性使其能在從編碼到自然語言理解的各種任務中靈活應用。

DeepSeek 已經對其庫和權重採用了 MIT 許可證,擴展了商業使用和下游修改的權限。衍生作品,如使用 DeepSeek-R1 訓練其他大型語言模型 (LLMs) 是被允許的。然而,使用特定提煉模型的用戶應確保遵守原始基模型的許可證,例如 Apache 2.0 和 Llama3 許可證。

(照片來源:Prateek Katyal)

另見:微軟利用 MatterGen 推進材料發現

想了解更多來自行業領袖的 AI 和大數據資訊嗎?請查看即將在阿姆斯特丹、加利福尼亞和倫敦舉行的 AI & Big Data Expo。這是一個綜合活動,還與其他領先活動如智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會共同舉行。

探索由 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: aiartificial intelligencebenchmarkcomparisondeepseekdeepseek-r1DeepSeekR1large language modelsllmmodelsopenaireasoningreasoning modelsreinforcement learningtest推理模型在性能上與競爭
Previous Post

如何使用蘋果的 Genmoji 創造新型表情符號

Next Post

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示
AI 智慧產業

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

2025-03-17
ServiceNow 部署 AI 代理以提升企業工作流程
AI 智慧產業

ServiceNow 部署 AI 代理以提升企業工作流程

2025-03-14
谷歌推出最新的開放式人工智慧模型
AI 智慧產業

谷歌推出最新的開放式人工智慧模型

2025-03-12
阿里巴巴 Qwen QwQ-32B:縮放強化學習展示
AI 智慧產業

阿里巴巴 Qwen QwQ-32B:縮放強化學習展示

2025-03-06
人工智慧語音模型減少醫療轉錄錯誤
AI 智慧產業

人工智慧語音模型減少醫療轉錄錯誤

2025-03-04
安全數據以促進更好的決策與合作:擁抱數據清理空間
AI 智慧產業

安全數據以促進更好的決策與合作:擁抱數據清理空間

2025-03-04
Next Post
機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

機器人部落格 | RoboCup 救援與 Open Roberta – 指導與所需的 JSON 檔案

簡化憑證生命週期管理與 AppViewX AVX ONE CLM 和 ServiceNow

簡化憑證生命週期管理與 AppViewX AVX ONE CLM 和 ServiceNow

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。