正規化層已成為現代神經網絡的重要組成部分,顯著改善了優化過程,通過穩定梯度流、減少對權重初始化的敏感性以及平滑損失景觀來達成。自從2015年引入批量正規化以來,為不同架構開發了各種正規化技術,其中層正規化(Layer Normalization, LN)在變壓器(Transformer)模型中尤其佔據主導地位。它們的廣泛使用主要是因為能加速收斂並提升模型性能,特別是當網絡變得更深且更複雜時。儘管不斷有新的架構創新取代其他核心組件,如注意力(Attention)或卷積層(Convolution),正規化層仍然是大多數設計中不可或缺的一部分,凸顯了它們在深度學習中的必要性。
雖然正規化層已被證明是有益的,但研究人員也探索了不使用它們來訓練深度網絡的方法。研究提出了替代的權重初始化策略、權重正規化技術和自適應梯度裁剪,以保持像殘差網絡(ResNets)這樣的模型的穩定性。在變壓器中,最近的努力檢查了減少對正規化依賴的修改,例如重構變壓器區塊或通過微調逐步移除LN層。這些方法表明,儘管正規化層提供了優化優勢,但它們並非絕對不可或缺,替代的訓練技術也能實現穩定的收斂,並達到相似的性能。
來自FAIR、Meta、紐約大學(NYU)、麻省理工學院(MIT)和普林斯頓大學的研究人員提出了動態雙曲正切(Dynamic Tanh, DyT)作為變壓器中正規化層的一個簡單而有效的替代方案。DyT作為一個逐元素函數運作,DyT(x) = tanh(alpha x),其中(alpha)是一個可學習的參數,用於縮放激活值,同時限制極端值。與層正規化不同,DyT消除了對激活統計數據的需求,簡化了計算。實驗評估顯示,將正規化層替換為DyT能在各種任務中保持或提升性能,而不需要大量的超參數調整。此外,DyT提高了訓練和推理的效率,挑戰了正規化對於現代深度網絡是必需的假設。
研究人員使用ViT-B、wav2vec 2.0和DiT-XL等模型分析了變壓器中的正規化層。他們發現LN通常表現出類似雙曲正切的S形輸入輸出映射,對於大多數值來說主要是線性的,但會壓縮極端的激活值。受到這一啟發,他們提出了動態雙曲正切(DyT)作為LN的替代方案。DyT定義為DyT(x) = gamma * tanh(alpha x) + beta,其中alpha、gamma和beta是可學習的參數,DyT在不計算激活統計的情況下保留了LN的效果。實驗結果顯示,DyT可以無縫整合到現有架構中,保持穩定性並減少對超參數調整的需求。
為了評估DyT的有效性,研究人員在各種架構和任務中進行了實驗,將LN或RMSNorm替換為DyT,同時保持超參數不變。在監督式視覺任務中,DyT在ImageNet-1K分類中略微超越了LN。在自監督學習、擴散模型、語言模型、語音處理和DNA序列建模中,DyT的性能與現有的正規化方法相當。對LLaMA-7B的效率測試顯示,DyT減少了計算時間。消融研究強調了雙曲正切函數和可學習參數α的重要性,這與激活標準差相關,充當隱式的正規化機制。DyT展現了競爭力的性能並提高了效率。
總結來說,這項研究顯示現代神經網絡,特別是變壓器,可以在沒有正規化層的情況下有效訓練。所提出的DyT使用可學習的縮放因子alpha和S形的雙曲正切函數來調節激活值,替代傳統的正規化。儘管其簡單,DyT複製了正規化的行為,並在各種任務中達到相當或更優的性能,包括識別、生成和自監督學習。這些結果挑戰了正規化層是必需的假設,提供了對其功能的新見解。DyT提供了一種輕量級的替代方案,簡化了訓練,同時保持或提高性能,通常不需要調整超參數。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!