DeepSeek 最近推出了它的第一代 DeepSeek-R1 和 DeepSeek-R1-Zero 型號,這些模型旨在解決複雜的推理任務。
DeepSeek-R1-Zero 僅通過大規模的強化學習 (RL) 進行訓練,而不依賴監督式微調 (SFT) 作為初步步驟。根據 DeepSeek 的說法,這種方法自然地出現了「許多強大而有趣的推理行為」,包括自我驗證、反思和生成長鏈思考 (CoT)。
「值得注意的是,[DeepSeek-R1-Zero] 是第一個開放研究,證實了大型語言模型 (LLMs) 的推理能力可以僅通過 RL 獲得,而不需要 SFT,」DeepSeek 的研究人員解釋道。這一里程碑不僅突顯了模型的創新基礎,還為基於 RL 的推理 AI 進步鋪平了道路。
然而,DeepSeek-R1-Zero 的能力也有一些限制。主要挑戰包括「無止境的重複、可讀性差和語言混合」,這些可能在實際應用中造成重大障礙。為了解決這些問題,DeepSeek 開發了其旗艦模型:DeepSeek-R1。
介紹 DeepSeek-R1
DeepSeek-R1 在前一代的基礎上,加入了冷啟動數據作為 RL 訓練之前的步驟。這一額外的預訓練步驟增強了模型的推理能力,並解決了 DeepSeek-R1-Zero 中提到的許多限制。
值得一提的是,DeepSeek-R1 在數學、編碼和一般推理任務的表現達到了與 OpenAI 的著名 o1 系統相當的水平,鞏固了它作為主要競爭者的地位。
DeepSeek 決定將 DeepSeek-R1-Zero 和 DeepSeek-R1 以及六個較小的精簡模型開源。其中,DeepSeek-R1-Distill-Qwen-32B 的表現非常優異,甚至在多個基準測試中超越了 OpenAI 的 o1-mini。
MATH-500 (Pass@1):DeepSeek-R1 的得分為 97.3%,超過了 OpenAI 的 96.4% 和其他主要競爭對手。
LiveCodeBench (Pass@1-COT):精簡版的 DeepSeek-R1-Distill-Qwen-32B 得分為 57.2%,在較小的模型中表現突出。
AIME 2024 (Pass@1):DeepSeek-R1 的得分為 79.8%,在數學問題解決中設定了令人印象深刻的標準。
為更廣泛的產業提供的管道
DeepSeek 分享了其嚴謹的推理模型開發流程,這個流程結合了監督式微調和強化學習。
根據該公司的說法,這個過程包括兩個 SFT 階段,以建立基礎的推理和非推理能力,以及兩個針對發現先進推理模式和將這些能力與人類偏好對齊的 RL 階段。
「我們相信這個管道將通過創造更好的模型來使整個產業受益,」DeepSeek 說明道,暗示了他們的方法在 AI 領域未來進步的潛力。
他們基於 RL 的方法的一個突出成就就是 DeepSeek-R1-Zero 能夠在沒有事先人類指導的情況下執行複雜的推理模式,這是開源 AI 研究社區的首例。
精簡的重要性
DeepSeek 的研究人員還強調了精簡的重要性——將推理能力從較大的模型轉移到較小、更高效的模型的過程,這一策略甚至為較小配置的性能提升解鎖了潛力。
DeepSeek-R1 的較小精簡版——如 1.5B、7B 和 14B 版本——能夠在特定應用中獨當一面。這些精簡模型的表現超過了相同大小模型通過 RL 訓練所獲得的結果。
對於研究人員來說,這些精簡模型的配置範圍從 15 億到 700 億參數,支持 Qwen2.5 和 Llama3 架構。這種靈活性使它們能夠廣泛應用於編碼和自然語言理解等各種任務。
DeepSeek 對其存儲庫和權重採用了 MIT 許可證,擴大了商業使用和下游修改的許可。衍生作品,如使用 DeepSeek-R1 訓練其他大型語言模型 (LLMs),是被允許的。然而,特定精簡模型的使用者應確保遵守原始基模型的許可,例如 Apache 2.0 和 Llama3 許可證。
(圖片來源:Prateek Katyal)
想了解更多來自業界領袖的 AI 和大數據資訊嗎?請參加在阿姆斯特丹、加州和倫敦舉行的 AI 與大數據博覽會。這個綜合活動與其他領先活動如智能自動化會議、BlockX、數位轉型週和網路安全與雲端博覽會同時舉辦。
在這裡探索由 TechForge 支援的其他即將舉行的企業技術活動和網路研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!