星期六, 14 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

DeepSeek-V3 技術報告

2025-02-11
in AI 綜合新聞
0 0
0
DeepSeek-V3 技術報告
Share on FacebookShare on Twitter
Your Ad


DeepSeek 提出了新穎的 LLM 架構(仍然基於變壓器)和訓練策略,以創造出強大的開源 LLM,並且訓練成本有限。

與 DeepSeek-V2 類似,V3 採用了多頭潛在注意力 (Multi-Head Latent Attention, MLA) 來提高推理效率,並使用專家混合 (DeepSeekMoE) 來降低訓練成本。從 V2 到 V3 的主要新增功能是無輔助損失的負載平衡。

多頭潛在注意力

MLA 的目的是在自回歸文本生成中提供更有效的推理(特別是對於長上下文),它使用鍵值快取來避免在每次生成步驟中重新計算它們。然而,這樣的快取會帶來較大的記憶體開銷。

在推理過程中,對鍵和值進行聯合壓縮,以減少 KV 快取的大小。

壓縮矩陣用於上投影和下投影(分別用 $U$ 和 $D$ 表示)。

RoPE 用於保持鍵和值的位置信息。額外的投影矩陣 $W^KR$ 用於旋轉鍵以攜帶這些信息。

*在生成過程中,只有藍色向量需要被快取。

壓縮也應用於查詢,以最小化記憶體佔用:

當計算注意力時,壓縮的輸出會乘以輸出上投影矩陣,以恢復完整的維度。

DeepSeekMOE 和無輔助損失的負載平衡

DeepSeekMOE

在 DeepSeekV3 的前饋網絡 (FFN) 中,使用 DeepSeekMOE 架構來避免對每個輸入標記同時激活所有參數。

DeepSeekMOE 中的 FFN 層計算如下:

$g_t$ 是第 i 個專家的閘值

$s_i$ 是標記到專家的親和力。

$e_i$ 是第 i 個路由專家的質心向量。

DeepSeekMOE 使用比其他 MOE 架構更細緻的專家,以確保知識在專家之間更好地分解。專家的數量從 N 增加到 mN,每個專家的隱藏維度減少到 1/m,並且每個標記激活 m 個專家。計算成本保持不變。

它還將一些專家孤立為共享專家,以便在任務之間學習共同知識,可能讓其他專家能夠更專精。

無輔助損失的負載平衡

在 MOE 場景中,負載不平衡可能導致路由崩潰並降低計算效率。可以使用輔助損失,但已被證明會降低性能。

相反,無輔助損失的負載平衡建議在計算 top-K 路由時,對親和力分數添加一個偏差項。

在訓練過程中,專家的負載在每個訓練步驟中被監控,並且如果對應的專家過載或欠載,偏差項會根據一個因子 $\gamma$ 進行調整。$\gamma$ 被稱為偏差更新速度。

作者表示,這種平衡專家的方式使 DeepSeek-V3 能夠比使用輔助損失訓練的模型獲得更好的性能。

多標記預測

為了提高訓練效率,使用多標記預測 (Multi-Token Prediction, MTP)。它允許在每次預測時預測未來的標記,從而提供更密集的訓練信號,提高數據效率。

與其他 MTP 方法不同,DeepSeek 的 MTP 通過順序預測額外標記來保持因果鏈(而不是並行預測)。

在訓練中使用額外的損失作為另一個訓練目標,以同時驗證多個輸出標記。這使模型能夠通過向前查看來改進對當前上下文的理解。

MTP 模塊在推理時被丟棄,因為它們不是必需的。然而,它們可以用來加速生成。來自 MTP 的第二個標記預測的接受率在 85% 到 90% 之間。

許多硬體優化步驟已詳細說明,但在這篇評測中未涵蓋。

訓練步驟

預訓練

V3 在 14.8T 的高品質標記上進行訓練,重點是數學和編程樣本,涵蓋多種語言(不僅限於英語和中文)。

它使用填充中間 (fill-in-middle, FIM) 策略,訓練模型在結構化數據環境中根據周圍上下文預測缺失的文本(或代碼):

<|fim_begin|> 𝑓_pre <|fim_hole|> 𝑓_suf <|fim_end|> 𝑓_middle <|eos_token|>

FIM 對於填充任務(如編寫代碼)非常有用。

後訓練

監督微調

監督訓練數據是使用依賴於先前訓練模型的各種方法生成的,並由人類標註者進行驗證。

推理數據(數學、代碼、邏輯謎題等)是使用針對特定領域優化的 R1 模型生成的。目的是將 R1 模型的一些推理能力傳遞給 V3 模型。使用拒絕抽樣來確保 SFT 數據的質量。

對於非推理數據(簡單問題、創意寫作等),使用 DeepSeek-V2.5 生成的響應,並由人類進行驗證。

強化學習 (RL)

RL 過程使用基於規則和基於模型的獎勵模型。

基於規則的獎勵模型用於可以客觀評估的任務,例如數學和編程。模型必須以特定格式輸出答案,以便可以用規則進行評估(編譯器、計算器等)。

基於模型的獎勵模型類似於其他 RLHF 方法,利用人類對樣本答案的偏好標註。

算法

使用 GRPO 作為 RL 算法。它不需要一個通常與政策模型大小相同的評論模型,而是使用組分數作為基準。

DeepSeek-V3 與其他最先進的大型 LLM 相比,表現非常出色。它的訓練成本比許多競爭對手低(完整訓練需要 2.788M H800 GPU 小時)。

DeepSeek-V3 顯示出,複雜且經過深思熟慮的設計、架構和訓練選擇可以顯著減少訓練時間和成本,使強大的 LLM 更容易為較小的開發團隊所使用。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: DeepSeekV3技術報告
Previous Post

Google Gemini 比你想的更聰明

Next Post

在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

在細胞內映射mRNA的生命週期 | 麻省理工學院新聞

如何使用 DeepSeek API:逐步指南

如何使用 DeepSeek API:逐步指南

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。