星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

在大型詞彙語言模型中減少損失

2025-02-07
in 機器學習與應用
0 0
0
在大型詞彙語言模型中減少損失
Share on FacebookShare on Twitter
Your Ad


隨著語言模型的發展

語言模型越來越大,它們的詞彙量也隨之增加。這使得在訓練過程中,LLM(大型語言模型)的記憶使用量主要集中在一個層面上:損失計算中的交叉熵。交叉熵會建立一個對應矩陣,這個矩陣包含每一對輸入標記和詞彙項的數據。對於小型模型來說,這會消耗比其他部分多得多的記憶體。

我們的解決方案:Cut Cross-Entropy (CCE)

我們提出了一種方法,稱為Cut Cross-Entropy(CCE),這種方法在計算交叉熵損失時,不需要將所有標記的logits(對數幾率)存入全局記憶體。相反,CCE只計算正確標記的logit,並即時計算所有logits的對數和指數。

如何實現CCE

我們實現了一個自訂的內核,這個內核在快閃記憶體中執行矩陣乘法和對詞彙的對數和指數計算,這樣使得交叉熵計算的全局記憶體消耗變得微不足道。

顯著的效果

以Gemma 2(2B)模型為例,CCE將損失計算的記憶體使用量從24 GB減少到1 MB,並將分類器頭的總訓練記憶體消耗從28 GB減少到1 GB。

提高CCE的效率

為了提高CCE的處理速度,我們利用softmax的固有稀疏性,提出跳過對梯度計算中貢獻微不足道的元素(即低於數值精度的部分)。實驗證明,記憶體消耗的顯著減少是在不影響訓練速度或收斂性的情況下實現的。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 在大型詞彙語言模型中減少損失
Previous Post

2024 PiTuKri ISAE 3000 第二類型鑑證報告涵蓋179項服務

Next Post

埃隆·馬斯克的DOGE正在開發一個名為GSAi的自訂聊天機器人

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
埃隆·馬斯克的DOGE正在開發一個名為GSAi的自訂聊天機器人

埃隆·馬斯克的DOGE正在開發一個名為GSAi的自訂聊天機器人

Prime Intellect 發布 SYNTHETIC-1:一個包含 140 萬個精選任務的開源數據集,涵蓋數學、編程、軟體工程、STEM 和合成代碼理解

Prime Intellect 發布 SYNTHETIC-1:一個包含 140 萬個精選任務的開源數據集,涵蓋數學、編程、軟體工程、STEM 和合成代碼理解

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。