長文上下文的語言模型(LLMs)能夠支持更高級的應用,例如代碼分析、長文檔的問答和多次上下文學習,這是因為它們可以處理從128K到10M的擴展上下文窗口。然而,這些能力在推理過程中會面臨計算效率和記憶體使用的挑戰。為了解決這些問題,出現了利用鍵值(KV)快取的優化方法,重點在於改善多輪互動中共享上下文的快取重用。像是PagedAttention、RadixAttention和CacheBlend等技術旨在降低記憶體成本並優化快取利用,但這些方法通常僅在單輪場景中進行評估,忽略了現實世界中的多輪應用。
改善長文上下文推理的努力主要集中在減少預填充和解碼階段的計算和記憶體瓶頸。預填充優化技術,如稀疏注意力、線性注意力和提示壓縮,能夠簡化處理大型上下文窗口的複雜性。解碼策略,包括靜態和動態KV壓縮、快取卸載和推測解碼,旨在有效管理記憶體限制。雖然這些方法提高了效率,但許多依賴於有損壓縮技術,這可能會在多輪場景中影響性能,因為前綴快取在這些情況下是至關重要的。現有的對話基準主要關注單輪評估,這使得在現實場景中評估共享上下文的解決方案存在空白。
來自微軟(Microsoft)和薩里大學(University of Surrey)的研究人員推出了SCBench,這是一個旨在通過KV快取中心的方法來評估LLMs中的長文上下文方法的基準。SCBench評估KV快取的四個階段:生成、壓縮、檢索和加載,涵蓋12個任務和兩種共享上下文模式(多輪和多請求)。該基準分析了稀疏注意力、壓縮和檢索等方法在Llama-3和GLM-4等模型上的表現。結果顯示,子O(n)的記憶體方法在多輪場景中表現不佳,而O(n)的記憶體方法則表現穩健。SCBench提供了有關稀疏性影響、任務複雜性和長生成場景中分佈變化等挑戰的見解。
KV快取中心的框架將LLMs中的長文上下文方法分為四個階段:生成、壓縮、檢索和加載。生成包括稀疏注意力和提示壓縮等技術,而壓縮則涉及KV快取丟棄和量化等方法。檢索專注於提取相關的KV快取區塊以優化性能,而加載則涉及動態轉移KV數據以進行計算。SCBench基準在12個任務中評估這些方法,包括字符串和語義檢索、多任務處理和全局處理。它分析了準確性和效率等性能指標,同時提供了算法創新的見解,包括Tri-shape稀疏注意力,這改善了多請求場景。
研究人員評估了六個開源的長文上下文LLMs,包括Llama-3.1、Qwen2.5、GLM-4、Codestal-Mamba和Jamba,這些模型代表了各種架構,如變壓器(Transformer)、SSM和SSM-注意力混合體。實驗使用了NVIDIA A100 GPU上的BFloat16精度,並使用了HuggingFace、vLLM和FlashAttention-2等框架。測試了八種長文上下文解決方案,包括稀疏注意力、KV快取管理和提示壓縮。結果顯示,MInference在檢索任務中表現最佳,而A-shape和Tri-shape在多輪任務中表現優異。KV壓縮方法和提示壓縮的結果不一,通常在檢索任務中表現不佳。SSM-注意力混合體在多輪互動中表現不佳,而門控線性模型的整體表現也不理想。
總結來說,這項研究突顯了評估長文上下文方法的關鍵空白,這些方法傳統上專注於單輪互動,卻忽略了在現實LLM應用中普遍存在的多輪共享上下文場景。SCBench基準的推出旨在解決這一問題,從KV快取的生命週期角度評估長文上下文方法:生成、壓縮、檢索和加載。它涵蓋了12個任務,並包括兩種共享上下文模式和四個關鍵能力:字符串檢索、語義檢索、全局信息處理和多任務處理。對八種長文上下文方法和六種最先進的LLMs的評估顯示,子O(n)方法在多輪場景中表現不佳,而O(n)方法則表現優異,為改善長文上下文LLMs和架構提供了有價值的見解。
查看論文和數據集。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+機器學習SubReddit。
🚨 熱門消息:LG AI研究推出EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長文上下文理解,助力全球在生成AI卓越方面的領導地位……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!