大型語言模型(LLMs)基於變壓器架構,通過其出色的上下文學習能力和有效的擴展能力,徹底改變了序列建模。這些模型依賴於注意力模組,這些模組像聯想記憶塊一樣,存儲和檢索關鍵值關聯。然而,這種機制有一個重要的限制:計算需求隨著輸入長度的增長而呈平方增長。這種時間和記憶體的平方複雜性在處理現實世界應用時,如語言建模、視頻理解和長期時間序列預測時,會帶來重大挑戰,因為上下文窗口可能變得非常大,限制了變壓器在這些關鍵領域的實際應用。
研究人員探索了多種方法來解決變壓器的計算挑戰,並出現了三個主要類別。首先,線性遞歸模型因其高效的訓練和推理而受到關注,從第一代模型如RetNet和RWKV演變而來,這些模型使用與數據無關的轉換矩陣,並發展到第二代架構,這些架構加入了像Griffin和RWKV6的閘控機制。接下來,基於變壓器的架構試圖通過I/O感知實現、稀疏注意力矩陣和基於核的方法來優化注意力機制。最後,增強記憶模型專注於持久和上下文記憶設計。然而,這些解決方案往往面臨記憶溢出、固定大小限制等問題。
谷歌研究人員提出了一種新穎的神經長期記憶模組,旨在通過允許訪問歷史上下文來增強注意力機制,同時保持高效的訓練和推理。這一創新在於創建一個互補系統,其中注意力作為短期記憶,用於在有限上下文中進行精確的依賴建模,而神經記憶組件則作為持久信息的長期存儲。這種雙重記憶方法形成了一個新的架構家族,稱為Titans,該家族有三種變體,每種變體提供不同的記憶整合策略。該系統在處理極長上下文方面顯示出特別的潛力,成功處理超過200萬個標記的序列。
Titans架構引入了一個複雜的三部分設計,以有效整合記憶能力。該系統由三個不同的超頭組成:核心模組利用有限窗口大小的注意力進行短期記憶和主要數據處理,長期記憶分支實施神經記憶模組以存儲歷史信息,以及持久記憶組件包含可學習的、與數據無關的參數。該架構實施了幾個技術優化,包括殘差連接、SiLU激活函數和查詢及鍵的ℓ2範數正規化。此外,它在查詢、鍵和值的投影後使用1D深度可分離卷積層,並結合正規化和閘控機制。
實驗結果顯示,Titans在多種配置下的表現優於其他模型。所有三種變體——MAC、MAG和MAL——都超越了混合模型如Samba和Gated DeltaNet-H2,神經記憶模組被證明是關鍵的區別因素。在這些變體中,MAC和MAG在處理較長依賴方面表現強勁,超過了現有混合模型中常用的MAL風格組合。在針對“針在干草堆中”(NIAH)任務中,Titans在2K到16K標記的序列範圍內超越了基準。這一優越表現源於三個主要優勢:高效的記憶管理、深度非線性記憶能力和有效的記憶抹除功能。
總之,谷歌研究人員介紹了一種突破性的神經長期記憶系統,該系統作為一種元上下文學習者,能夠在測試時進行自適應記憶。這種遞歸模型在識別和存儲數據流中的驚人模式方面更為有效,提供了比傳統方法更複雜的記憶管理。該系統在處理大量上下文方面的優越性,通過Titans架構家族中的三種不同變體的實施得到了證明。能夠有效處理超過200萬個標記的序列,同時保持卓越的準確性,標誌著序列建模領域的一個重大進展,並為處理日益複雜的任務開啟了新的可能性。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!