DeepSeek 發表了它的第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 模型,這些模型旨在解決複雜的推理任務。
DeepSeek-R1-Zero 只透過大規模的強化學習 (RL) 進行訓練,並沒有依賴監督式微調 (SFT) 作為初步步驟。根據 DeepSeek 的說法,這種方法自然產生了“許多強大而有趣的推理行為”,包括自我驗證、反思以及生成長鏈思考 (CoT)。
“值得注意的是,[DeepSeek-R1-Zero] 是第一個公開研究,證實 LLM 的推理能力可以僅透過 RL 來激勵,而不需要 SFT,”DeepSeek 的研究人員解釋道。這一里程碑不僅強調了該模型的創新基礎,還為以 RL 為重點的推理 AI 進步鋪平了道路。
然而,DeepSeek-R1-Zero 的能力也有一些限制。主要挑戰包括“無盡的重複、可讀性差和語言混合”,這可能在現實應用中造成重大障礙。為了解決這些缺點,DeepSeek 開發了它的旗艦模型:DeepSeek-R1。
介紹 DeepSeek-R1
DeepSeek-R1 在前一代的基礎上,加入了在 RL 訓練之前的冷啟動數據。這一步驟增強了模型的推理能力,並解決了 DeepSeek-R1-Zero 中提到的許多限制。
值得注意的是,DeepSeek-R1 在數學、編碼和一般推理任務中達到了與 OpenAI 受到廣泛讚譽的 o1 系統相當的性能,穩固了它作為主要競爭者的地位。
DeepSeek 已選擇將 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六個較小的提煉模型開源。在這些模型中,DeepSeek-R1-Distill-Qwen-32B 表現出色,甚至在多個基準測試中超越了 OpenAI 的 o1-mini。
MATH-500 (Pass@1):DeepSeek-R1 達到 97.3%,超越 OpenAI 的 96.4% 和其他主要競爭者。
LiveCodeBench (Pass@1-COT):提煉版本 DeepSeek-R1-Distill-Qwen-32B 得分 57.2%,在較小模型中表現突出。
AIME 2024 (Pass@1):DeepSeek-R1 達到 79.8%,在數學問題解決中樹立了令人印象深刻的標準。
為更廣泛的行業帶來好處的管道
DeepSeek 分享了其推理模型開發的嚴格流程,該流程結合了監督式微調和強化學習。
根據該公司的說法,這個過程包括兩個 SFT 階段以建立基礎的推理和非推理能力,以及兩個針對發現高級推理模式和將這些能力與人類偏好對齊的 RL 階段。
“我們相信這個管道將通過創造更好的模型來惠及行業,”DeepSeek 表示,暗示其方法的潛力能激勵 AI 領域的未來進步。
他們以 RL 為重點的方法的一個突出成就是,DeepSeek-R1-Zero 能在沒有先前人類指導的情況下執行複雜的推理模式,這對於開源 AI 研究社區來說是首次。
提煉的重要性
DeepSeek 的研究人員還強調了提煉的重要性——這是一個將推理能力從較大模型轉移到較小、更有效模型的過程,這一策略即使在較小的配置中也解鎖了性能增長。
DeepSeek-R1 的較小提煉版本——如 1.5B、7B 和 14B 版本——能在小眾應用中展現出色的表現。這些提煉模型的表現超過了通過 RL 訓練的同類模型。
🔥 贈品:開源提煉模型!
🔬 從 DeepSeek-R1 提煉出的 6 個小模型完全開源📏 32B 和 70B 模型與 OpenAI-o1-mini 不相上下🤝 使開源社區受益
🌍 推動 **開放 AI** 的邊界!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
— DeepSeek (@deepseek_ai) January 20, 2025
對於研究人員來說,這些提煉模型的配置範圍從 1.5 億到 700 億參數,支持 Qwen2.5 和 Llama3 架構。這種靈活性使其能在從編碼到自然語言理解的各種任務中靈活應用。
DeepSeek 已經對其庫和權重採用了 MIT 許可證,擴展了商業使用和下游修改的權限。衍生作品,如使用 DeepSeek-R1 訓練其他大型語言模型 (LLMs) 是被允許的。然而,使用特定提煉模型的用戶應確保遵守原始基模型的許可證,例如 Apache 2.0 和 Llama3 許可證。
(照片來源:Prateek Katyal)
另見:微軟利用 MatterGen 推進材料發現
想了解更多來自行業領袖的 AI 和大數據資訊嗎?請查看即將在阿姆斯特丹、加利福尼亞和倫敦舉行的 AI & Big Data Expo。這是一個綜合活動,還與其他領先活動如智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會共同舉行。
探索由 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!