擴展語言模型評估：從數千到數百萬個標記與BABILong

大型語言模型 (LLMs) 和神經架構的能力有了顯著進步，特別是在處理較長的上下文方面。這些改進對各種應用有深遠的影響。增強的上下文處理能力使模型能夠利用全面的信息，生成更準確且與上下文相關的回應。擴展的上下文容量大大增強了模型的即時學習能力，讓模型能夠有效利用更多範例並遵循複雜的指示。儘管這些技術有了飛躍性的進展，但評估基準卻沒有相應地進化。目前的評估工具如 Longbench 和 L-Eval 仍然限制在 40,000 個標記，而現代模型可以處理數十萬甚至數百萬個標記，這造成了模型能力與評估方法之間的顯著差距。

長上下文評估基準的演變始於 Long Range Arena (LRA)，它能處理長達 16,000 個標記的序列，但主要集中在像 ListOps 和 Byte-Level 操作等專門任務上。這一限制促使了更全面的評估框架的發展。其中值得注意的有 LongBench、Scrolls 和 L-Eval，這些框架涵蓋了從摘要到代碼完成的多樣任務，標記長度從 3,000 到 60,000 不等。最近的發展產生了更多專門的基準，專注於即時學習和指示，例如 LongAlign 和 LongICLBench。其他數據集如 InfinityBench、NovelQA 和 ChapterBreak 進一步推進了邊界，能處理多達 636,000 個標記，涵蓋從維基百科文章到電影劇本的領域。

來自俄羅斯莫斯科的 AIRI、MIPT 的神經網絡與深度學習實驗室，以及英國倫敦數學科學研究所的研究人員介紹了 BABILong，這是一個創新的基準，旨在評估語言模型在處理極長文件時的推理能力。這個全面的評估框架包含 20 個不同的推理任務，包括事實鏈接、歸納、演繹和列表處理，使用 PG19 數據集中的書籍作為來源材料。該基準的靈活性允許測試長達 5,000 萬個標記的序列，使其特別適合評估下一代模型。初步測試顯示目前模型存在顯著的限制，流行的 LLM 只能有效利用 10-20% 的可用上下文。雖然檢索增強生成方法在單一事實問題上達到 60% 的準確率，但像 Mamba 和重複記憶變壓器這樣的架構創新顯示出更優越的性能，其中 ARMT 特別能處理長達 5,000 萬個標記的序列。

BABILong 基準採用獨特的方法來評估語言模型在處理擴展上下文方面的能力。通過將與任務相關的句子嵌入從 PG19 數據集中提取的無關文本中，該基準創造了一個挑戰性的環境，模擬了現實世界中關鍵信息分散在冗長文件中的情況。這種方法允許上下文長度無限擴展，使得能夠評估具有數百萬標記上下文窗口的模型。該基準建立在原始 bAbI 任務的基礎上，這些任務通過角色和物體之間的模擬互動來評估基本的推理能力。這些標記為 QA1 到 QA20 的任務測試各種認知能力，包括空間推理、時間理解和演繹推理。值得注意的是，這種合成方法確保了對訓練數據污染的免疫，這是傳統自然語言處理基準中常見的脆弱性。

對語言模型上下文利用的全面分析顯示，它們在有效處理長序列方面存在顯著限制。在各種問答任務中的測試顯示，大多數當前的 LLM 只能有效利用其廣告上下文窗口的 10-20%。在測試的 34 個模型中，只有 23 個在沒有干擾文本的基本任務上達到 85% 的準確率。不同架構的性能差異顯著：雖然像 GPT-4 和 Llama-3.1-70b 的模型在 16K 標記的情況下仍然有效，但大多數模型在超過 4K 標記時則面臨挑戰。最近的發展顯示出有希望的改進，Qwen-2.5 模型在開放 LLM 中表現最佳。評估還探索了替代方法，包括檢索增強生成 (RAG) 和微調模型。雖然 RAG 顯示出有限的成功，但微調的重複記憶模型，特別是 ARMT，顯示出卓越的能力，能夠處理長達 5,000 萬個標記的序列，並保持穩定的性能。

BABILong 代表了在評估語言模型長上下文能力方面的重要進展，通過其獨特的可擴展性和多樣的推理任務組合。該基準的可調設計允許測試從 0 到 1,000 萬標記的序列，同時保持對文檔長度和事實位置的算法控制。測試顯示，包括像 GPT-4 和 Gemini 1.5 Pro 這樣的先進系統在內的當前模型僅有效利用其輸入上下文的 5-25%。雖然像 Llama-3.1 和 Qwen-2.5 這樣的新模型顯示出改進的性能，但它們仍然面臨限制。微調實驗特別揭示了，即使是相對較小的模型如 RMT 和 ARMT (137M 參數) 也能有效處理 BABILong 任務，其中 ARMT 特別能處理長達 5,000 萬個標記的序列，遠超過 Mamba 實際的 128K 標記限制。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，不要忘記在 Twitter 上關注我們，並加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60,000 多名機器學習 SubReddit。

🚨 熱門消息：LG AI 研究發布 EXAONE 3.5：三個開源雙語前沿 AI 模型，提供無與倫比的指令跟隨和長上下文理解，為生成 AI 卓越的全球領導地位提供支持……。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 擴展語言模型評估從數千到數百萬個標記與BABILong