星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

擴展語言模型評估:從數千到數百萬個標記與BABILong

2024-12-20
in AI 綜合新聞
0 0
0
擴展語言模型評估:從數千到數百萬個標記與BABILong
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 和神經架構的能力有了顯著進步,特別是在處理較長的上下文方面。這些改進對各種應用有深遠的影響。增強的上下文處理能力使模型能夠利用全面的信息,生成更準確且與上下文相關的回應。擴展的上下文容量大大增強了模型的即時學習能力,讓模型能夠有效利用更多範例並遵循複雜的指示。儘管這些技術有了飛躍性的進展,但評估基準卻沒有相應地進化。目前的評估工具如 Longbench 和 L-Eval 仍然限制在 40,000 個標記,而現代模型可以處理數十萬甚至數百萬個標記,這造成了模型能力與評估方法之間的顯著差距。

長上下文評估基準的演變始於 Long Range Arena (LRA),它能處理長達 16,000 個標記的序列,但主要集中在像 ListOps 和 Byte-Level 操作等專門任務上。這一限制促使了更全面的評估框架的發展。其中值得注意的有 LongBench、Scrolls 和 L-Eval,這些框架涵蓋了從摘要到代碼完成的多樣任務,標記長度從 3,000 到 60,000 不等。最近的發展產生了更多專門的基準,專注於即時學習和指示,例如 LongAlign 和 LongICLBench。其他數據集如 InfinityBench、NovelQA 和 ChapterBreak 進一步推進了邊界,能處理多達 636,000 個標記,涵蓋從維基百科文章到電影劇本的領域。

來自俄羅斯莫斯科的 AIRI、MIPT 的神經網絡與深度學習實驗室,以及英國倫敦數學科學研究所的研究人員介紹了 BABILong,這是一個創新的基準,旨在評估語言模型在處理極長文件時的推理能力。這個全面的評估框架包含 20 個不同的推理任務,包括事實鏈接、歸納、演繹和列表處理,使用 PG19 數據集中的書籍作為來源材料。該基準的靈活性允許測試長達 5,000 萬個標記的序列,使其特別適合評估下一代模型。初步測試顯示目前模型存在顯著的限制,流行的 LLM 只能有效利用 10-20% 的可用上下文。雖然檢索增強生成方法在單一事實問題上達到 60% 的準確率,但像 Mamba 和重複記憶變壓器這樣的架構創新顯示出更優越的性能,其中 ARMT 特別能處理長達 5,000 萬個標記的序列。

BABILong 基準採用獨特的方法來評估語言模型在處理擴展上下文方面的能力。通過將與任務相關的句子嵌入從 PG19 數據集中提取的無關文本中,該基準創造了一個挑戰性的環境,模擬了現實世界中關鍵信息分散在冗長文件中的情況。這種方法允許上下文長度無限擴展,使得能夠評估具有數百萬標記上下文窗口的模型。該基準建立在原始 bAbI 任務的基礎上,這些任務通過角色和物體之間的模擬互動來評估基本的推理能力。這些標記為 QA1 到 QA20 的任務測試各種認知能力,包括空間推理、時間理解和演繹推理。值得注意的是,這種合成方法確保了對訓練數據污染的免疫,這是傳統自然語言處理基準中常見的脆弱性。

對語言模型上下文利用的全面分析顯示,它們在有效處理長序列方面存在顯著限制。在各種問答任務中的測試顯示,大多數當前的 LLM 只能有效利用其廣告上下文窗口的 10-20%。在測試的 34 個模型中,只有 23 個在沒有干擾文本的基本任務上達到 85% 的準確率。不同架構的性能差異顯著:雖然像 GPT-4 和 Llama-3.1-70b 的模型在 16K 標記的情況下仍然有效,但大多數模型在超過 4K 標記時則面臨挑戰。最近的發展顯示出有希望的改進,Qwen-2.5 模型在開放 LLM 中表現最佳。評估還探索了替代方法,包括檢索增強生成 (RAG) 和微調模型。雖然 RAG 顯示出有限的成功,但微調的重複記憶模型,特別是 ARMT,顯示出卓越的能力,能夠處理長達 5,000 萬個標記的序列,並保持穩定的性能。

BABILong 代表了在評估語言模型長上下文能力方面的重要進展,通過其獨特的可擴展性和多樣的推理任務組合。該基準的可調設計允許測試從 0 到 1,000 萬標記的序列,同時保持對文檔長度和事實位置的算法控制。測試顯示,包括像 GPT-4 和 Gemini 1.5 Pro 這樣的先進系統在內的當前模型僅有效利用其輸入上下文的 5-25%。雖然像 Llama-3.1 和 Qwen-2.5 這樣的新模型顯示出改進的性能,但它們仍然面臨限制。微調實驗特別揭示了,即使是相對較小的模型如 RMT 和 ARMT (137M 參數) 也能有效處理 BABILong 任務,其中 ARMT 特別能處理長達 5,000 萬個標記的序列,遠超過 Mamba 實際的 128K 標記限制。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,不要忘記在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60,000 多名機器學習 SubReddit。

🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型,提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位提供支持……。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 擴展語言模型評估從數千到數百萬個標記與BABILong
Previous Post

初創公司的自主無人機精確追蹤倉庫庫存 | 麻省理工學院新聞

Next Post

人工智慧模型如何學習解決人類無法解決的問題

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
人工智慧模型如何學習解決人類無法解決的問題

人工智慧模型如何學習解決人類無法解決的問題

認識 Moxin LLM 7B:根據模型開放框架 (MOF) 開發的完全開源語言模型

認識 Moxin LLM 7B:根據模型開放框架 (MOF) 開發的完全開源語言模型

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。