Google AI 研究推出 Titans：一種具有注意力和元上下文記憶的新型機器學習架構，能夠在測試時學習如何記憶

大型語言模型（LLMs）基於變壓器架構，通過其出色的上下文學習能力和有效的擴展能力，徹底改變了序列建模。這些模型依賴於注意力模組，這些模組像聯想記憶塊一樣，存儲和檢索關鍵值關聯。然而，這種機制有一個重要的限制：計算需求隨著輸入長度的增長而呈平方增長。這種時間和記憶體的平方複雜性在處理現實世界應用時，如語言建模、視頻理解和長期時間序列預測時，會帶來重大挑戰，因為上下文窗口可能變得非常大，限制了變壓器在這些關鍵領域的實際應用。

研究人員探索了多種方法來解決變壓器的計算挑戰，並出現了三個主要類別。首先，線性遞歸模型因其高效的訓練和推理而受到關注，從第一代模型如RetNet和RWKV演變而來，這些模型使用與數據無關的轉換矩陣，並發展到第二代架構，這些架構加入了像Griffin和RWKV6的閘控機制。接下來，基於變壓器的架構試圖通過I/O感知實現、稀疏注意力矩陣和基於核的方法來優化注意力機制。最後，增強記憶模型專注於持久和上下文記憶設計。然而，這些解決方案往往面臨記憶溢出、固定大小限制等問題。

谷歌研究人員提出了一種新穎的神經長期記憶模組，旨在通過允許訪問歷史上下文來增強注意力機制，同時保持高效的訓練和推理。這一創新在於創建一個互補系統，其中注意力作為短期記憶，用於在有限上下文中進行精確的依賴建模，而神經記憶組件則作為持久信息的長期存儲。這種雙重記憶方法形成了一個新的架構家族，稱為Titans，該家族有三種變體，每種變體提供不同的記憶整合策略。該系統在處理極長上下文方面顯示出特別的潛力，成功處理超過200萬個標記的序列。

Titans架構引入了一個複雜的三部分設計，以有效整合記憶能力。該系統由三個不同的超頭組成：核心模組利用有限窗口大小的注意力進行短期記憶和主要數據處理，長期記憶分支實施神經記憶模組以存儲歷史信息，以及持久記憶組件包含可學習的、與數據無關的參數。該架構實施了幾個技術優化，包括殘差連接、SiLU激活函數和查詢及鍵的ℓ2範數正規化。此外，它在查詢、鍵和值的投影後使用1D深度可分離卷積層，並結合正規化和閘控機制。

實驗結果顯示，Titans在多種配置下的表現優於其他模型。所有三種變體——MAC、MAG和MAL——都超越了混合模型如Samba和Gated DeltaNet-H2，神經記憶模組被證明是關鍵的區別因素。在這些變體中，MAC和MAG在處理較長依賴方面表現強勁，超過了現有混合模型中常用的MAL風格組合。在針對“針在干草堆中”（NIAH）任務中，Titans在2K到16K標記的序列範圍內超越了基準。這一優越表現源於三個主要優勢：高效的記憶管理、深度非線性記憶能力和有效的記憶抹除功能。

總之，谷歌研究人員介紹了一種突破性的神經長期記憶系統，該系統作為一種元上下文學習者，能夠在測試時進行自適應記憶。這種遞歸模型在識別和存儲數據流中的驚人模式方面更為有效，提供了比傳統方法更複雜的記憶管理。該系統在處理大量上下文方面的優越性，通過Titans架構家族中的三種不同變體的實施得到了證明。能夠有效處理超過200萬個標記的序列，同時保持卓越的準確性，標誌著序列建模領域的一個重大進展，並為處理日益複雜的任務開啟了新的可能性。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！