深度神經網絡的某些看似奇怪的普遍化行為,如良性過擬合、雙重下降和成功的過度參數化,並不是神經網絡所特有的,也不是本質上的神秘。這些現象可以通過已建立的框架,如PAC-Bayes和可數假設界限來理解。來自紐約大學的研究人員提出「柔性歸納偏見」作為解釋這些現象的關鍵統一原則:這種方法不是限制假設空間,而是接受靈活性,同時保持對與數據一致的簡單解決方案的偏好。這一原則適用於各種模型類別,顯示深度學習在根本上並不與其他方法不同。然而,深度學習在某些方面仍然具有獨特性。
傳統上,歸納偏見作為限制偏見,限制假設空間以改善普遍化,讓數據能夠排除不合適的解決方案。卷積神經網絡就是這種方法的例子,通過參數的移除和共享,對多層感知器(MLP)施加了如局部性和平移等硬約束。柔性歸納偏見則代表一種更廣泛的原則,某些解決方案受到偏好,但不會排除其他同樣適合數據的選擇。與具有硬約束的限制偏見不同,柔性偏見是指導而不是限制假設空間。這些偏見通過正則化和參數的貝葉斯先驗等機制影響訓練過程。
接受靈活的假設空間可以處理複雜的現實世界數據結構,但需要對某些解決方案有先前的偏見,以確保良好的普遍化。儘管挑戰了關於過擬合和如拉德馬赫複雜度等指標的傳統智慧,過度參數化等現象與對普遍化的直觀理解是一致的。這些現象可以通過長期建立的框架來描述,包括PAC-Bayes和可數假設界限。有效維度的概念提供了進一步理解行為的直覺。塑造傳統普遍化智慧的框架往往無法解釋這些現象,這突顯了已建立的替代方法在理解現代機器學習的普遍化特性方面的價值。
良性過擬合描述了模型能夠完美地擬合噪聲,同時在結構化數據上仍然能夠良好地普遍化,顯示出過擬合的能力並不一定會導致在有意義的問題上表現不佳。卷積神經網絡能夠擬合隨機的圖像標籤,同時在結構化的圖像識別任務中保持強大的表現。這種行為與已建立的普遍化框架如VC維度和拉德馬赫複雜度相矛盾,作者聲稱沒有現有的正式測量能解釋這些模型的簡單性,儘管它們的規模龐大。良性過擬合的另一個定義是被描述為「深度學習揭示的關鍵謎團之一」。然而,這並不是神經網絡所特有的,因為它可以在各種模型類別中重現。
雙重下降是指當模型參數增加時,普遍化誤差先減少、再增加,然後再次減少。最初的模式遵循「經典範疇」,模型捕捉有用的結構,但最終過擬合。第二次下降發生在「現代插值範疇」,當訓練損失接近零時。雙重下降在ResNet-18和線性模型中都有顯示。對於ResNet,當每層的寬度增加時,在CIFAR-100上觀察到交叉熵損失。隨著ResNet中的層寬增加或線性模型中的參數增加,兩者都遵循類似的模式:有效維度上升,直到達到插值閾值,然後隨著普遍化的改善而下降。這一現象可以通過PAC-Bayes界限進行正式追蹤。
總結來說,過度參數化、良性過擬合和雙重下降是值得持續研究的有趣現象。然而,與廣泛的信念相反,這些行為與已建立的普遍化框架一致,可以在非神經模型中重現,並且可以直觀理解。這一理解應該能夠橋接不同的研究社群,防止有價值的觀點和框架被忽視。其他現象如「grokking」和「規模法則」並不是作為重新思考普遍化框架或神經網絡特有的證據。最近的研究確認這些現象也適用於線性模型。此外,PAC-Bayes和可數假設界限在大型語言模型中仍然保持一致。
查看這篇論文。這項研究的所有功勞都歸功於這個項目的研究人員。同時,隨時在Twitter上關注我們,別忘了加入我們的80k+機器學習SubReddit。
🚨 介紹Parlant:一個以LLM為首的對話式AI框架,旨在為開發者提供對其AI客服代理的控制和精確度,利用行為指導和運行時監督。🔧 🎛️ 它使用易於使用的命令行界面(CLI)📟和Python及TypeScript的本地客戶端SDK操作📦。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!