DeepSeek-V3 技術報告

DeepSeek 提出了新穎的 LLM 架構（仍然基於變壓器）和訓練策略，以創造出強大的開源 LLM，並且訓練成本有限。

與 DeepSeek-V2 類似，V3 採用了多頭潛在注意力 (Multi-Head Latent Attention, MLA) 來提高推理效率，並使用專家混合 (DeepSeekMoE) 來降低訓練成本。從 V2 到 V3 的主要新增功能是無輔助損失的負載平衡。

多頭潛在注意力

MLA 的目的是在自回歸文本生成中提供更有效的推理（特別是對於長上下文），它使用鍵值快取來避免在每次生成步驟中重新計算它們。然而，這樣的快取會帶來較大的記憶體開銷。

在推理過程中，對鍵和值進行聯合壓縮，以減少 KV 快取的大小。

壓縮矩陣用於上投影和下投影（分別用 $U$ 和 $D$ 表示）。

RoPE 用於保持鍵和值的位置信息。額外的投影矩陣 $W^KR$ 用於旋轉鍵以攜帶這些信息。

*在生成過程中，只有藍色向量需要被快取。

壓縮也應用於查詢，以最小化記憶體佔用：

當計算注意力時，壓縮的輸出會乘以輸出上投影矩陣，以恢復完整的維度。

DeepSeekMOE 和無輔助損失的負載平衡

DeepSeekMOE

在 DeepSeekV3 的前饋網絡 (FFN) 中，使用 DeepSeekMOE 架構來避免對每個輸入標記同時激活所有參數。

DeepSeekMOE 中的 FFN 層計算如下：

$g_t$ 是第 i 個專家的閘值

$s_i$ 是標記到專家的親和力。

$e_i$ 是第 i 個路由專家的質心向量。

DeepSeekMOE 使用比其他 MOE 架構更細緻的專家，以確保知識在專家之間更好地分解。專家的數量從 N 增加到 mN，每個專家的隱藏維度減少到 1/m，並且每個標記激活 m 個專家。計算成本保持不變。

它還將一些專家孤立為共享專家，以便在任務之間學習共同知識，可能讓其他專家能夠更專精。

無輔助損失的負載平衡

在 MOE 場景中，負載不平衡可能導致路由崩潰並降低計算效率。可以使用輔助損失，但已被證明會降低性能。

相反，無輔助損失的負載平衡建議在計算 top-K 路由時，對親和力分數添加一個偏差項。

在訓練過程中，專家的負載在每個訓練步驟中被監控，並且如果對應的專家過載或欠載，偏差項會根據一個因子 $\gamma$ 進行調整。$\gamma$ 被稱為偏差更新速度。

作者表示，這種平衡專家的方式使 DeepSeek-V3 能夠比使用輔助損失訓練的模型獲得更好的性能。

多標記預測

為了提高訓練效率，使用多標記預測 (Multi-Token Prediction, MTP)。它允許在每次預測時預測未來的標記，從而提供更密集的訓練信號，提高數據效率。

與其他 MTP 方法不同，DeepSeek 的 MTP 通過順序預測額外標記來保持因果鏈（而不是並行預測）。

在訓練中使用額外的損失作為另一個訓練目標，以同時驗證多個輸出標記。這使模型能夠通過向前查看來改進對當前上下文的理解。

MTP 模塊在推理時被丟棄，因為它們不是必需的。然而，它們可以用來加速生成。來自 MTP 的第二個標記預測的接受率在 85% 到 90% 之間。

許多硬體優化步驟已詳細說明，但在這篇評測中未涵蓋。

訓練步驟

預訓練

V3 在 14.8T 的高品質標記上進行訓練，重點是數學和編程樣本，涵蓋多種語言（不僅限於英語和中文）。

它使用填充中間 (fill-in-middle, FIM) 策略，訓練模型在結構化數據環境中根據周圍上下文預測缺失的文本（或代碼）：

FIM 對於填充任務（如編寫代碼）非常有用。

後訓練

監督微調

監督訓練數據是使用依賴於先前訓練模型的各種方法生成的，並由人類標註者進行驗證。

推理數據（數學、代碼、邏輯謎題等）是使用針對特定領域優化的 R1 模型生成的。目的是將 R1 模型的一些推理能力傳遞給 V3 模型。使用拒絕抽樣來確保 SFT 數據的質量。

對於非推理數據（簡單問題、創意寫作等），使用 DeepSeek-V2.5 生成的響應，並由人類進行驗證。

強化學習 (RL)

RL 過程使用基於規則和基於模型的獎勵模型。

基於規則的獎勵模型用於可以客觀評估的任務，例如數學和編程。模型必須以特定格式輸出答案，以便可以用規則進行評估（編譯器、計算器等）。

基於模型的獎勵模型類似於其他 RLHF 方法，利用人類對樣本答案的偏好標註。

算法

使用 GRPO 作為 RL 算法。它不需要一個通常與政策模型大小相同的評論模型，而是使用組分數作為基準。

DeepSeek-V3 與其他最先進的大型 LLM 相比，表現非常出色。它的訓練成本比許多競爭對手低（完整訓練需要 2.788M H800 GPU 小時）。

DeepSeek-V3 顯示出，複雜且經過深思熟慮的設計、架構和訓練選擇可以顯著減少訓練時間和成本，使強大的 LLM 更容易為較小的開發團隊所使用。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: DeepSeekV3 技術報告

DeepSeek-V3 技術報告

Google Gemini 比你想的更聰明

在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2027 年 AI 預測人類水平 AI 的全新里程碑

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 技術對人類智能的影響我們在失去什麼？

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

如何使用 DeepSeek API：逐步指南

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

DeepSeek-V3 技術報告

多頭潛在注意力

DeepSeekMOE 和無輔助損失的負載平衡

DeepSeekMOE

無輔助損失的負載平衡

多標記預測

訓練步驟

預訓練

後訓練

監督微調

強化學習 (RL)

Google Gemini 比你想的更聰明

在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆