MiniMax-Text-01 和 MiniMax-VL-01 發佈：可擴展模型，具備閃電注意力、456B 參數、4M 令牌上下文及最先進的準確性

大型語言模型（LLMs）和視覺語言模型（VLMs）正在改變自然語言理解、多模態整合和複雜推理任務。然而，這些模型仍然有一個重要的限制：目前的模型無法有效處理非常大的上下文。這個挑戰促使研究人員探索新的方法和架構，以提高這些模型的可擴展性、效率和性能。

現有模型通常支持的標記上下文長度在32,000到256,000之間，這限制了它們處理需要更大上下文窗口的情況，例如延長的程式指令或多步推理任務。由於傳統的softmax注意機制具有二次複雜性，增加上下文大小的計算成本非常高。研究人員已經探索了替代的注意方法，例如稀疏注意、線性注意和狀態空間模型，以解決這些挑戰，但大規模實施仍然有限。

稀疏注意專注於相關輸入，以減少計算開銷，而線性注意則簡化了注意矩陣以提高可擴展性。然而，由於與現有架構的兼容性問題和在現實世界中的表現不佳，這些方法的採用速度較慢。例如，狀態空間模型能有效處理長序列，但在複雜任務中通常缺乏變壓器系統的穩健性和準確性。

來自MiniMax的研究人員推出了MiniMax-01系列，包括兩個變體，以解決這些限制：

MiniMax-Text-01：MiniMax-Text-01擁有4560億個總參數，每個標記激活45.9億。它利用混合注意機制來高效處理長上下文。在訓練期間，其上下文窗口擴展到100萬個標記，在推理期間則擴展到400萬個標記。

MiniMax-VL-01：MiniMax-VL-01整合了一個輕量級的視覺變壓器（ViT）模組，通過四階段的訓練流程處理5120億個視覺語言標記。

這些模型採用了新穎的閃電注意機制，降低了處理長序列的計算複雜性。此外，整合混合專家（MoE）架構提高了可擴展性和效率。MiniMax模型擁有4560億個參數，其中每個標記激活45.9億。這種組合使模型在訓練期間能處理高達100萬個標記的上下文窗口，在推理期間則能推斷到400萬個標記。通過利用先進的計算策略，MiniMax-01系列在長上下文處理方面提供了前所未有的能力，同時保持與最先進的模型如GPT-4和Claude-3.5相當的性能。

閃電注意機制實現了線性計算複雜性，使模型能有效擴展。混合注意架構在閃電和softmax注意層之間交替，確保計算效率和檢索能力之間的平衡。這些模型還整合了增強的線性注意序列並行（LASP+）算法，能有效處理大量序列。此外，視覺語言模型MiniMax-VL-01整合了一個輕量級的視覺變壓器模組，使其能通過四階段的訓練過程處理5120億個視覺語言標記。這些創新還得益於優化的CUDA內核和並行化策略，在Nvidia H20 GPU上實現了超過75%的模型運算效率。

性能評估顯示，MiniMax模型在各種基準測試中取得了突破性成果：

例如，MiniMax-Text-01在MMLU上的準確率為88.5%，並且與GPT-4等模型競爭力強。

視覺語言模型MiniMax-VL-01在DocVQA上的準確率超過96.4%，在AI2D基準測試中為91.7%。

這些模型還提供了比傳統模型長20到32倍的上下文窗口，顯著提高了它們在長上下文應用中的實用性。

總之，MiniMax-01系列，包括MiniMax-Text-01和MiniMax-VL-01，代表了解決可擴展性和長上下文挑戰的突破。它結合了閃電注意等創新技術，並採用混合架構。通過利用先進的計算框架和優化策略，研究人員推出了一個解決方案，將上下文能力擴展到前所未有的400萬個標記，並與GPT-4等領先模型的性能相當或超越。

請查看Hugging Face上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。還有，別忘了加入我們的65k+ ML SubReddit。

🚨 推薦開源平台：Parlant是一個框架，改變了AI代理在面對客戶的情境中做決策的方式。（廣告）

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！