大型語言模型 (LLMs) 和神經架構的能力有了顯著進步,特別是在處理較長的上下文方面。這些改進對各種應用有深遠的影響。增強的上下文處理能力使模型能夠利用全面的信息,生成更準確且與上下文相關的回應。擴展的上下文容量大大增強了模型的即時學習能力,讓模型能夠有效利用更多範例並遵循複雜的指示。儘管這些技術有了飛躍性的進展,但評估基準卻沒有相應地進化。目前的評估工具如 Longbench 和 L-Eval 仍然限制在 40,000 個標記,而現代模型可以處理數十萬甚至數百萬個標記,這造成了模型能力與評估方法之間的顯著差距。
長上下文評估基準的演變始於 Long Range Arena (LRA),它能處理長達 16,000 個標記的序列,但主要集中在像 ListOps 和 Byte-Level 操作等專門任務上。這一限制促使了更全面的評估框架的發展。其中值得注意的有 LongBench、Scrolls 和 L-Eval,這些框架涵蓋了從摘要到代碼完成的多樣任務,標記長度從 3,000 到 60,000 不等。最近的發展產生了更多專門的基準,專注於即時學習和指示,例如 LongAlign 和 LongICLBench。其他數據集如 InfinityBench、NovelQA 和 ChapterBreak 進一步推進了邊界,能處理多達 636,000 個標記,涵蓋從維基百科文章到電影劇本的領域。
來自俄羅斯莫斯科的 AIRI、MIPT 的神經網絡與深度學習實驗室,以及英國倫敦數學科學研究所的研究人員介紹了 BABILong,這是一個創新的基準,旨在評估語言模型在處理極長文件時的推理能力。這個全面的評估框架包含 20 個不同的推理任務,包括事實鏈接、歸納、演繹和列表處理,使用 PG19 數據集中的書籍作為來源材料。該基準的靈活性允許測試長達 5,000 萬個標記的序列,使其特別適合評估下一代模型。初步測試顯示目前模型存在顯著的限制,流行的 LLM 只能有效利用 10-20% 的可用上下文。雖然檢索增強生成方法在單一事實問題上達到 60% 的準確率,但像 Mamba 和重複記憶變壓器這樣的架構創新顯示出更優越的性能,其中 ARMT 特別能處理長達 5,000 萬個標記的序列。
BABILong 基準採用獨特的方法來評估語言模型在處理擴展上下文方面的能力。通過將與任務相關的句子嵌入從 PG19 數據集中提取的無關文本中,該基準創造了一個挑戰性的環境,模擬了現實世界中關鍵信息分散在冗長文件中的情況。這種方法允許上下文長度無限擴展,使得能夠評估具有數百萬標記上下文窗口的模型。該基準建立在原始 bAbI 任務的基礎上,這些任務通過角色和物體之間的模擬互動來評估基本的推理能力。這些標記為 QA1 到 QA20 的任務測試各種認知能力,包括空間推理、時間理解和演繹推理。值得注意的是,這種合成方法確保了對訓練數據污染的免疫,這是傳統自然語言處理基準中常見的脆弱性。
對語言模型上下文利用的全面分析顯示,它們在有效處理長序列方面存在顯著限制。在各種問答任務中的測試顯示,大多數當前的 LLM 只能有效利用其廣告上下文窗口的 10-20%。在測試的 34 個模型中,只有 23 個在沒有干擾文本的基本任務上達到 85% 的準確率。不同架構的性能差異顯著:雖然像 GPT-4 和 Llama-3.1-70b 的模型在 16K 標記的情況下仍然有效,但大多數模型在超過 4K 標記時則面臨挑戰。最近的發展顯示出有希望的改進,Qwen-2.5 模型在開放 LLM 中表現最佳。評估還探索了替代方法,包括檢索增強生成 (RAG) 和微調模型。雖然 RAG 顯示出有限的成功,但微調的重複記憶模型,特別是 ARMT,顯示出卓越的能力,能夠處理長達 5,000 萬個標記的序列,並保持穩定的性能。
BABILong 代表了在評估語言模型長上下文能力方面的重要進展,通過其獨特的可擴展性和多樣的推理任務組合。該基準的可調設計允許測試從 0 到 1,000 萬標記的序列,同時保持對文檔長度和事實位置的算法控制。測試顯示,包括像 GPT-4 和 Gemini 1.5 Pro 這樣的先進系統在內的當前模型僅有效利用其輸入上下文的 5-25%。雖然像 Llama-3.1 和 Qwen-2.5 這樣的新模型顯示出改進的性能,但它們仍然面臨限制。微調實驗特別揭示了,即使是相對較小的模型如 RMT 和 ARMT (137M 參數) 也能有效處理 BABILong 任務,其中 ARMT 特別能處理長達 5,000 萬個標記的序列,遠超過 Mamba 實際的 128K 標記限制。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,不要忘記在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60,000 多名機器學習 SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型,提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位提供支持……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!