大型語言模型(LLMs)和視覺語言模型(VLMs)正在改變自然語言理解、多模態整合和複雜推理任務。然而,這些模型仍然有一個重要的限制:目前的模型無法有效處理非常大的上下文。這個挑戰促使研究人員探索新的方法和架構,以提高這些模型的可擴展性、效率和性能。
現有模型通常支持的標記上下文長度在32,000到256,000之間,這限制了它們處理需要更大上下文窗口的情況,例如延長的程式指令或多步推理任務。由於傳統的softmax注意機制具有二次複雜性,增加上下文大小的計算成本非常高。研究人員已經探索了替代的注意方法,例如稀疏注意、線性注意和狀態空間模型,以解決這些挑戰,但大規模實施仍然有限。
稀疏注意專注於相關輸入,以減少計算開銷,而線性注意則簡化了注意矩陣以提高可擴展性。然而,由於與現有架構的兼容性問題和在現實世界中的表現不佳,這些方法的採用速度較慢。例如,狀態空間模型能有效處理長序列,但在複雜任務中通常缺乏變壓器系統的穩健性和準確性。
來自MiniMax的研究人員推出了MiniMax-01系列,包括兩個變體,以解決這些限制:
MiniMax-Text-01:MiniMax-Text-01擁有4560億個總參數,每個標記激活45.9億。它利用混合注意機制來高效處理長上下文。在訓練期間,其上下文窗口擴展到100萬個標記,在推理期間則擴展到400萬個標記。
MiniMax-VL-01:MiniMax-VL-01整合了一個輕量級的視覺變壓器(ViT)模組,通過四階段的訓練流程處理5120億個視覺語言標記。
這些模型採用了新穎的閃電注意機制,降低了處理長序列的計算複雜性。此外,整合混合專家(MoE)架構提高了可擴展性和效率。MiniMax模型擁有4560億個參數,其中每個標記激活45.9億。這種組合使模型在訓練期間能處理高達100萬個標記的上下文窗口,在推理期間則能推斷到400萬個標記。通過利用先進的計算策略,MiniMax-01系列在長上下文處理方面提供了前所未有的能力,同時保持與最先進的模型如GPT-4和Claude-3.5相當的性能。
閃電注意機制實現了線性計算複雜性,使模型能有效擴展。混合注意架構在閃電和softmax注意層之間交替,確保計算效率和檢索能力之間的平衡。這些模型還整合了增強的線性注意序列並行(LASP+)算法,能有效處理大量序列。此外,視覺語言模型MiniMax-VL-01整合了一個輕量級的視覺變壓器模組,使其能通過四階段的訓練過程處理5120億個視覺語言標記。這些創新還得益於優化的CUDA內核和並行化策略,在Nvidia H20 GPU上實現了超過75%的模型運算效率。
性能評估顯示,MiniMax模型在各種基準測試中取得了突破性成果:
例如,MiniMax-Text-01在MMLU上的準確率為88.5%,並且與GPT-4等模型競爭力強。
視覺語言模型MiniMax-VL-01在DocVQA上的準確率超過96.4%,在AI2D基準測試中為91.7%。
這些模型還提供了比傳統模型長20到32倍的上下文窗口,顯著提高了它們在長上下文應用中的實用性。
總之,MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,代表了解決可擴展性和長上下文挑戰的突破。它結合了閃電注意等創新技術,並採用混合架構。通過利用先進的計算框架和優化策略,研究人員推出了一個解決方案,將上下文能力擴展到前所未有的400萬個標記,並與GPT-4等領先模型的性能相當或超越。
請查看Hugging Face上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的65k+ ML SubReddit。
🚨 推薦開源平台:Parlant是一個框架,改變了AI代理在面對客戶的情境中做決策的方式。(廣告)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!