DeepSeek 提出了新穎的 LLM 架構(仍然基於變壓器)和訓練策略,以創造出強大的開源 LLM,並且訓練成本有限。
與 DeepSeek-V2 類似,V3 採用了多頭潛在注意力 (Multi-Head Latent Attention, MLA) 來提高推理效率,並使用專家混合 (DeepSeekMoE) 來降低訓練成本。從 V2 到 V3 的主要新增功能是無輔助損失的負載平衡。
多頭潛在注意力
MLA 的目的是在自回歸文本生成中提供更有效的推理(特別是對於長上下文),它使用鍵值快取來避免在每次生成步驟中重新計算它們。然而,這樣的快取會帶來較大的記憶體開銷。
在推理過程中,對鍵和值進行聯合壓縮,以減少 KV 快取的大小。
壓縮矩陣用於上投影和下投影(分別用 $U$ 和 $D$ 表示)。
RoPE 用於保持鍵和值的位置信息。額外的投影矩陣 $W^KR$ 用於旋轉鍵以攜帶這些信息。
*在生成過程中,只有藍色向量需要被快取。
壓縮也應用於查詢,以最小化記憶體佔用:
當計算注意力時,壓縮的輸出會乘以輸出上投影矩陣,以恢復完整的維度。
DeepSeekMOE 和無輔助損失的負載平衡
DeepSeekMOE
在 DeepSeekV3 的前饋網絡 (FFN) 中,使用 DeepSeekMOE 架構來避免對每個輸入標記同時激活所有參數。
DeepSeekMOE 中的 FFN 層計算如下:
$g_t$ 是第 i 個專家的閘值
$s_i$ 是標記到專家的親和力。
$e_i$ 是第 i 個路由專家的質心向量。
DeepSeekMOE 使用比其他 MOE 架構更細緻的專家,以確保知識在專家之間更好地分解。專家的數量從 N 增加到 mN,每個專家的隱藏維度減少到 1/m,並且每個標記激活 m 個專家。計算成本保持不變。
它還將一些專家孤立為共享專家,以便在任務之間學習共同知識,可能讓其他專家能夠更專精。
無輔助損失的負載平衡
在 MOE 場景中,負載不平衡可能導致路由崩潰並降低計算效率。可以使用輔助損失,但已被證明會降低性能。
相反,無輔助損失的負載平衡建議在計算 top-K 路由時,對親和力分數添加一個偏差項。
在訓練過程中,專家的負載在每個訓練步驟中被監控,並且如果對應的專家過載或欠載,偏差項會根據一個因子 $\gamma$ 進行調整。$\gamma$ 被稱為偏差更新速度。
作者表示,這種平衡專家的方式使 DeepSeek-V3 能夠比使用輔助損失訓練的模型獲得更好的性能。
多標記預測
為了提高訓練效率,使用多標記預測 (Multi-Token Prediction, MTP)。它允許在每次預測時預測未來的標記,從而提供更密集的訓練信號,提高數據效率。
與其他 MTP 方法不同,DeepSeek 的 MTP 通過順序預測額外標記來保持因果鏈(而不是並行預測)。
在訓練中使用額外的損失作為另一個訓練目標,以同時驗證多個輸出標記。這使模型能夠通過向前查看來改進對當前上下文的理解。
MTP 模塊在推理時被丟棄,因為它們不是必需的。然而,它們可以用來加速生成。來自 MTP 的第二個標記預測的接受率在 85% 到 90% 之間。
許多硬體優化步驟已詳細說明,但在這篇評測中未涵蓋。
訓練步驟
預訓練
V3 在 14.8T 的高品質標記上進行訓練,重點是數學和編程樣本,涵蓋多種語言(不僅限於英語和中文)。
它使用填充中間 (fill-in-middle, FIM) 策略,訓練模型在結構化數據環境中根據周圍上下文預測缺失的文本(或代碼):
<|fim_begin|> 𝑓_pre <|fim_hole|> 𝑓_suf <|fim_end|> 𝑓_middle <|eos_token|>
FIM 對於填充任務(如編寫代碼)非常有用。
後訓練
監督微調
監督訓練數據是使用依賴於先前訓練模型的各種方法生成的,並由人類標註者進行驗證。
推理數據(數學、代碼、邏輯謎題等)是使用針對特定領域優化的 R1 模型生成的。目的是將 R1 模型的一些推理能力傳遞給 V3 模型。使用拒絕抽樣來確保 SFT 數據的質量。
對於非推理數據(簡單問題、創意寫作等),使用 DeepSeek-V2.5 生成的響應,並由人類進行驗證。
強化學習 (RL)
RL 過程使用基於規則和基於模型的獎勵模型。
基於規則的獎勵模型用於可以客觀評估的任務,例如數學和編程。模型必須以特定格式輸出答案,以便可以用規則進行評估(編譯器、計算器等)。
基於模型的獎勵模型類似於其他 RLHF 方法,利用人類對樣本答案的偏好標註。
算法
使用 GRPO 作為 RL 算法。它不需要一個通常與政策模型大小相同的評論模型,而是使用組分數作為基準。
DeepSeek-V3 與其他最先進的大型 LLM 相比,表現非常出色。它的訓練成本比許多競爭對手低(完整訓練需要 2.788M H800 GPU 小時)。
DeepSeek-V3 顯示出,複雜且經過深思熟慮的設計、架構和訓練選擇可以顯著減少訓練時間和成本,使強大的 LLM 更容易為較小的開發團隊所使用。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!