星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

動態雙曲正切DyT:變壓器中正規化的簡化替代方案

2025-03-17
in AI 綜合新聞
0 0
0
動態雙曲正切DyT:變壓器中正規化的簡化替代方案
Share on FacebookShare on Twitter
Your Ad


正規化層已成為現代神經網絡的重要組成部分,顯著改善了優化過程,通過穩定梯度流、減少對權重初始化的敏感性以及平滑損失景觀來達成。自從2015年引入批量正規化以來,為不同架構開發了各種正規化技術,其中層正規化(Layer Normalization, LN)在變壓器(Transformer)模型中尤其佔據主導地位。它們的廣泛使用主要是因為能加速收斂並提升模型性能,特別是當網絡變得更深且更複雜時。儘管不斷有新的架構創新取代其他核心組件,如注意力(Attention)或卷積層(Convolution),正規化層仍然是大多數設計中不可或缺的一部分,凸顯了它們在深度學習中的必要性。

雖然正規化層已被證明是有益的,但研究人員也探索了不使用它們來訓練深度網絡的方法。研究提出了替代的權重初始化策略、權重正規化技術和自適應梯度裁剪,以保持像殘差網絡(ResNets)這樣的模型的穩定性。在變壓器中,最近的努力檢查了減少對正規化依賴的修改,例如重構變壓器區塊或通過微調逐步移除LN層。這些方法表明,儘管正規化層提供了優化優勢,但它們並非絕對不可或缺,替代的訓練技術也能實現穩定的收斂,並達到相似的性能。

來自FAIR、Meta、紐約大學(NYU)、麻省理工學院(MIT)和普林斯頓大學的研究人員提出了動態雙曲正切(Dynamic Tanh, DyT)作為變壓器中正規化層的一個簡單而有效的替代方案。DyT作為一個逐元素函數運作,DyT(x) = tanh(alpha x),其中(alpha)是一個可學習的參數,用於縮放激活值,同時限制極端值。與層正規化不同,DyT消除了對激活統計數據的需求,簡化了計算。實驗評估顯示,將正規化層替換為DyT能在各種任務中保持或提升性能,而不需要大量的超參數調整。此外,DyT提高了訓練和推理的效率,挑戰了正規化對於現代深度網絡是必需的假設。

研究人員使用ViT-B、wav2vec 2.0和DiT-XL等模型分析了變壓器中的正規化層。他們發現LN通常表現出類似雙曲正切的S形輸入輸出映射,對於大多數值來說主要是線性的,但會壓縮極端的激活值。受到這一啟發,他們提出了動態雙曲正切(DyT)作為LN的替代方案。DyT定義為DyT(x) = gamma * tanh(alpha x) + beta,其中alpha、gamma和beta是可學習的參數,DyT在不計算激活統計的情況下保留了LN的效果。實驗結果顯示,DyT可以無縫整合到現有架構中,保持穩定性並減少對超參數調整的需求。

為了評估DyT的有效性,研究人員在各種架構和任務中進行了實驗,將LN或RMSNorm替換為DyT,同時保持超參數不變。在監督式視覺任務中,DyT在ImageNet-1K分類中略微超越了LN。在自監督學習、擴散模型、語言模型、語音處理和DNA序列建模中,DyT的性能與現有的正規化方法相當。對LLaMA-7B的效率測試顯示,DyT減少了計算時間。消融研究強調了雙曲正切函數和可學習參數α的重要性,這與激活標準差相關,充當隱式的正規化機制。DyT展現了競爭力的性能並提高了效率。

總結來說,這項研究顯示現代神經網絡,特別是變壓器,可以在沒有正規化層的情況下有效訓練。所提出的DyT使用可學習的縮放因子alpha和S形的雙曲正切函數來調節激活值,替代傳統的正規化。儘管其簡單,DyT複製了正規化的行為,並在各種任務中達到相當或更優的性能,包括識別、生成和自監督學習。這些結果挑戰了正規化層是必需的假設,提供了對其功能的新見解。DyT提供了一種輕量級的替代方案,簡化了訓練,同時保持或提高性能,通常不需要調整超參數。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 動態雙曲正切DyT變壓器中正規化的簡化替代方案
Previous Post

AI 助力揭開古代哲學卷軸的神秘面紗

Next Post

Cohere 發布指令 A:一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型,專為企業設計

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
Cohere 發布指令 A:一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型,專為企業設計

Cohere 發布指令 A:一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型,專為企業設計

Wandelbots對機器人編程的未來

Wandelbots對機器人編程的未來

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。