動態雙曲正切DyT：變壓器中正規化的簡化替代方案

正規化層已成為現代神經網絡的重要組成部分，顯著改善了優化過程，通過穩定梯度流、減少對權重初始化的敏感性以及平滑損失景觀來達成。自從2015年引入批量正規化以來，為不同架構開發了各種正規化技術，其中層正規化（Layer Normalization, LN）在變壓器（Transformer）模型中尤其佔據主導地位。它們的廣泛使用主要是因為能加速收斂並提升模型性能，特別是當網絡變得更深且更複雜時。儘管不斷有新的架構創新取代其他核心組件，如注意力（Attention）或卷積層（Convolution），正規化層仍然是大多數設計中不可或缺的一部分，凸顯了它們在深度學習中的必要性。

雖然正規化層已被證明是有益的，但研究人員也探索了不使用它們來訓練深度網絡的方法。研究提出了替代的權重初始化策略、權重正規化技術和自適應梯度裁剪，以保持像殘差網絡（ResNets）這樣的模型的穩定性。在變壓器中，最近的努力檢查了減少對正規化依賴的修改，例如重構變壓器區塊或通過微調逐步移除LN層。這些方法表明，儘管正規化層提供了優化優勢，但它們並非絕對不可或缺，替代的訓練技術也能實現穩定的收斂，並達到相似的性能。

來自FAIR、Meta、紐約大學（NYU）、麻省理工學院（MIT）和普林斯頓大學的研究人員提出了動態雙曲正切（Dynamic Tanh, DyT）作為變壓器中正規化層的一個簡單而有效的替代方案。DyT作為一個逐元素函數運作，DyT(x) = tanh(alpha x)，其中(alpha)是一個可學習的參數，用於縮放激活值，同時限制極端值。與層正規化不同，DyT消除了對激活統計數據的需求，簡化了計算。實驗評估顯示，將正規化層替換為DyT能在各種任務中保持或提升性能，而不需要大量的超參數調整。此外，DyT提高了訓練和推理的效率，挑戰了正規化對於現代深度網絡是必需的假設。

研究人員使用ViT-B、wav2vec 2.0和DiT-XL等模型分析了變壓器中的正規化層。他們發現LN通常表現出類似雙曲正切的S形輸入輸出映射，對於大多數值來說主要是線性的，但會壓縮極端的激活值。受到這一啟發，他們提出了動態雙曲正切（DyT）作為LN的替代方案。DyT定義為DyT(x) = gamma * tanh(alpha x) + beta，其中alpha、gamma和beta是可學習的參數，DyT在不計算激活統計的情況下保留了LN的效果。實驗結果顯示，DyT可以無縫整合到現有架構中，保持穩定性並減少對超參數調整的需求。

為了評估DyT的有效性，研究人員在各種架構和任務中進行了實驗，將LN或RMSNorm替換為DyT，同時保持超參數不變。在監督式視覺任務中，DyT在ImageNet-1K分類中略微超越了LN。在自監督學習、擴散模型、語言模型、語音處理和DNA序列建模中，DyT的性能與現有的正規化方法相當。對LLaMA-7B的效率測試顯示，DyT減少了計算時間。消融研究強調了雙曲正切函數和可學習參數α的重要性，這與激活標準差相關，充當隱式的正規化機制。DyT展現了競爭力的性能並提高了效率。

總結來說，這項研究顯示現代神經網絡，特別是變壓器，可以在沒有正規化層的情況下有效訓練。所提出的DyT使用可學習的縮放因子alpha和S形的雙曲正切函數來調節激活值，替代傳統的正規化。儘管其簡單，DyT複製了正規化的行為，並在各種任務中達到相當或更優的性能，包括識別、生成和自監督學習。這些結果挑戰了正規化層是必需的假設，提供了對其功能的新見解。DyT提供了一種輕量級的替代方案，簡化了訓練，同時保持或提高性能，通常不需要調整超參數。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 動態雙曲正切DyT變壓器中正規化的簡化替代方案