基於變壓器的模型在自然語言處理(NLP)方面取得了顯著進展,並在各種任務中表現優異。然而,它們在長上下文推理、多步推理和數字推理方面仍然面臨挑戰。這些挑戰源於它們在自注意力中的二次複雜性,使得它們在處理長序列時效率低下,並且缺乏明確的記憶,限制了它們有效綜合分散信息的能力。現有的解決方案,如循環記憶變壓器(RMT)和檢索增強生成(RAG),提供了部分改進,但往往在效率或泛化能力之間做出妥協。
介紹大型記憶模型(LM2)
Convergence Labs推出了大型記憶模型(LM2),這是一種僅解碼的變壓器架構,通過輔助記憶模塊來解決傳統模型在長上下文推理中的不足。與僅依賴注意力機制的標準變壓器不同,LM2整合了一個結構化的記憶系統,通過交叉注意力與輸入嵌入進行互動。該模型的記憶更新由閘控機制調節,使其能夠選擇性地保留相關信息,同時保持泛化能力。這種設計使LM2能夠在長序列中保持一致性,促進了改進的關係推理和推斷。
技術概述與優勢
LM2在標準變壓器架構的基礎上引入了三個關鍵創新:
- 記憶增強變壓器:專用的記憶庫作為明確的長期存儲系統,通過交叉注意力檢索相關信息。
- 混合記憶通道:與之前修改變壓器核心結構的模型不同,LM2保持原始信息流,同時整合輔助記憶通道。
- 動態記憶更新:記憶模塊使用可學習的輸入、遺忘和輸出閘選擇性地更新其存儲的信息,確保長期保留而不會不必要地累積無關數據。
這些增強使LM2能夠更有效地處理長序列,同時保持計算效率。通過選擇性地整合相關的記憶內容,該模型減少了傳統架構在長上下文中常見的性能下降。
實驗結果與見解
為了評估LM2的有效性,對其進行了在BABILong數據集上的測試,該數據集旨在評估記憶密集型推理能力。結果顯示出顯著的改進:
- 短上下文性能(0K上下文長度):LM2的準確率為92.5%,超過了RMT(76.4%)和普通的Llama-3.2(40.7%)。
- 長上下文性能(1K–4K上下文長度):隨著上下文長度的增加,所有模型都會出現一定程度的下降,但LM2保持了更高的準確率。在4K上下文長度下,LM2達到55.9%,而RMT為48.4%,Llama-3.2為36.8%。
- 極長上下文性能(≥8K上下文長度):雖然所有模型的準確率都下降,但LM2保持了更穩定的表現,在多步推理和關係論證方面超過了RMT。
除了針對記憶的基準測試外,LM2還在MMLU數據集上進行了測試,該數據集涵蓋了廣泛的學術科目。該模型在預訓練的普通變壓器上顯示出5.0%的改進,特別是在需要上下文推理的文科和社會科學領域表現突出。這些結果表明,LM2的記憶模塊在不妨礙一般任務性能的情況下增強了推理能力。
結論
LM2的推出為解決標準變壓器在長上下文推理中的局限性提供了一種深思熟慮的方法。通過整合明確的記憶模塊,LM2改善了多步推理、關係論證和數字推理,同時保持效率和適應性。實驗結果顯示其在現有架構中的優勢,特別是在需要長期上下文保留的任務中。此外,LM2在一般推理基準測試中的良好表現表明,記憶整合並不妨礙其多樣性。隨著記憶增強模型的持續發展,LM2代表了在語言模型中更有效的長上下文推理的一步。
查看論文。所有研究的功勞歸於這個項目的研究人員。同時,歡迎在Twitter上關注我們,別忘了加入我們的75k+ ML SubReddit。
🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多代理框架,用於評估複雜的對話AI系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!