序列是用來表示和處理資訊的通用抽象概念,因此序列建模在現代深度學習中非常重要。將計算任務視為序列之間的轉換,使得這個觀點擴展到自然語言處理 (NLP)、電腦視覺、時間序列分析和計算生物學等多個領域。這推動了各種序列模型的發展,包括變壓器 (transformers)、遞歸神經網路 (recurrent networks) 和卷積網路 (convolutional networks),每種模型在特定情境下表現出色。然而,這些模型通常是通過零散和經驗驅動的研究產生的,這使得理解它們的設計原則或系統性地優化它們的性能變得困難。缺乏統一的框架和一致的符號進一步模糊了這些架構之間的基本聯繫。
一個關鍵的發現是,不同序列模型之間的聯繫在於它們進行聯想回憶的能力與語言建模的有效性之間的關係。例如,研究顯示變壓器使用像誘導頭 (induction heads) 的機制來存儲標記對並預測後續標記。這突顯了聯想回憶在決定模型成功中的重要性。自然會產生一個問題:我們如何能夠有意設計架構以在聯想回憶上表現優異?解決這個問題可以澄清為什麼某些模型表現優於其他模型,並指導創建更有效和可泛化的序列模型。
來自史丹佛大學 (Stanford University) 的研究人員提出了一個統一框架,將序列模型與聯想記憶連結起來,通過回歸-記憶對應關係來實現。他們展示了記住鍵-值對等同於在測試時解決回歸問題,提供了一種系統性設計序列模型的方法。通過將架構視為回歸目標、函數類別和優化算法的選擇,這個框架解釋並概括了線性注意力 (linear attention)、狀態空間模型 (state-space models) 和軟最大注意力 (softmax attention)。這種方法利用了數十年的回歸理論,提供了對現有架構的更清晰理解,並指導開發更強大、理論基礎更扎實的序列模型。
序列建模的目標是將輸入標記映射到輸出標記,其中聯想回憶對於像上下文學習 (in-context learning) 這樣的任務至關重要。許多序列層將輸入轉換為鍵-值對和查詢,但具有聯想記憶的層的設計通常缺乏理論基礎。測試時回歸框架通過將聯想記憶視為解決回歸問題來解決這個問題,其中記憶映射根據鍵來近似值。這個框架通過將其設計視為三個選擇來統一序列模型:為聯繫分配權重、選擇回歸函數類別和選擇優化方法。這種系統性的方法使得架構設計更具原則性。
為了實現有效的聯想回憶,構建特定任務的鍵-值對至關重要。傳統模型使用線性投影來處理查詢、鍵和值,而最近的方法則強調“短卷積”以提高性能。一個單一的測試時回歸層與一個短卷積就足以解決多查詢聯想回憶 (MQAR) 任務,通過形成二元組鍵-值對來實現。記憶容量,而非序列長度,決定模型性能。線性注意力可以用正交嵌入解決MQAR,但無權重的遞歸最小二乘法 (RLS) 在考慮鍵協方差的情況下,對於較大的鍵-值集表現更好。這些發現突顯了記憶容量和鍵構建在實現最佳回憶中的重要性。
總之,這項研究提出了一個統一框架,將具有聯想記憶的序列模型解釋為測試時的回歸器,特徵包括三個組件:聯繫的重要性、回歸函數類別和優化算法。它通過回歸原則解釋了線性注意力、軟最大注意力和在線學習者等架構,提供了對QKNorm和高階注意力概括等特徵的見解。這個框架強調了單層設計在MQAR等任務中的效率,避免了冗餘層的使用。通過將序列模型與回歸和優化文獻相連接,這種方法為未來在自適應和高效模型方面的進步開辟了道路,強調了聯想記憶在動態現實環境中的作用。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。不要忘記加入我們的70k+ ML SubReddit。
🚨 [推薦閱讀] Nebius AI Studio擴展視覺模型、新語言模型、嵌入和LoRA (推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!