星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

MiniMax-Text-01 和 MiniMax-VL-01 發佈:可擴展模型,具備閃電注意力、456B 參數、4M 令牌上下文及最先進的準確性

2025-01-16
in 機器學習與應用
0 0
0
MiniMax-Text-01 和 MiniMax-VL-01 發佈:可擴展模型,具備閃電注意力、456B 參數、4M 令牌上下文及最先進的準確性
Share on FacebookShare on Twitter
Your Ad


大型語言模型(LLMs)和視覺語言模型(VLMs)正在改變自然語言理解、多模態整合和複雜推理任務。然而,這些模型仍然有一個重要的限制:目前的模型無法有效處理非常大的上下文。這個挑戰促使研究人員探索新的方法和架構,以提高這些模型的可擴展性、效率和性能。

現有模型通常支持的標記上下文長度在32,000到256,000之間,這限制了它們處理需要更大上下文窗口的情況,例如延長的程式指令或多步推理任務。由於傳統的softmax注意機制具有二次複雜性,增加上下文大小的計算成本非常高。研究人員已經探索了替代的注意方法,例如稀疏注意、線性注意和狀態空間模型,以解決這些挑戰,但大規模實施仍然有限。

稀疏注意專注於相關輸入,以減少計算開銷,而線性注意則簡化了注意矩陣以提高可擴展性。然而,由於與現有架構的兼容性問題和在現實世界中的表現不佳,這些方法的採用速度較慢。例如,狀態空間模型能有效處理長序列,但在複雜任務中通常缺乏變壓器系統的穩健性和準確性。

來自MiniMax的研究人員推出了MiniMax-01系列,包括兩個變體,以解決這些限制:

MiniMax-Text-01:MiniMax-Text-01擁有4560億個總參數,每個標記激活45.9億。它利用混合注意機制來高效處理長上下文。在訓練期間,其上下文窗口擴展到100萬個標記,在推理期間則擴展到400萬個標記。

MiniMax-VL-01:MiniMax-VL-01整合了一個輕量級的視覺變壓器(ViT)模組,通過四階段的訓練流程處理5120億個視覺語言標記。

這些模型採用了新穎的閃電注意機制,降低了處理長序列的計算複雜性。此外,整合混合專家(MoE)架構提高了可擴展性和效率。MiniMax模型擁有4560億個參數,其中每個標記激活45.9億。這種組合使模型在訓練期間能處理高達100萬個標記的上下文窗口,在推理期間則能推斷到400萬個標記。通過利用先進的計算策略,MiniMax-01系列在長上下文處理方面提供了前所未有的能力,同時保持與最先進的模型如GPT-4和Claude-3.5相當的性能。

閃電注意機制實現了線性計算複雜性,使模型能有效擴展。混合注意架構在閃電和softmax注意層之間交替,確保計算效率和檢索能力之間的平衡。這些模型還整合了增強的線性注意序列並行(LASP+)算法,能有效處理大量序列。此外,視覺語言模型MiniMax-VL-01整合了一個輕量級的視覺變壓器模組,使其能通過四階段的訓練過程處理5120億個視覺語言標記。這些創新還得益於優化的CUDA內核和並行化策略,在Nvidia H20 GPU上實現了超過75%的模型運算效率。

性能評估顯示,MiniMax模型在各種基準測試中取得了突破性成果:

例如,MiniMax-Text-01在MMLU上的準確率為88.5%,並且與GPT-4等模型競爭力強。

視覺語言模型MiniMax-VL-01在DocVQA上的準確率超過96.4%,在AI2D基準測試中為91.7%。

這些模型還提供了比傳統模型長20到32倍的上下文窗口,顯著提高了它們在長上下文應用中的實用性。

總之,MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,代表了解決可擴展性和長上下文挑戰的突破。它結合了閃電注意等創新技術,並採用混合架構。通過利用先進的計算框架和優化策略,研究人員推出了一個解決方案,將上下文能力擴展到前所未有的400萬個標記,並與GPT-4等領先模型的性能相當或超越。

請查看Hugging Face上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的65k+ ML SubReddit。

🚨 推薦開源平台:Parlant是一個框架,改變了AI代理在面對客戶的情境中做決策的方式。(廣告)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: MiniMaxText01MiniMaxVL01令牌上下文及最先進的準確性參數4M和發佈可擴展模型具備閃電注意力456B
Previous Post

機器學習與人工智慧模型的可解釋性與可理解性

Next Post

什麼是深度學習? – MarkTechPost

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
什麼是深度學習? – MarkTechPost

什麼是深度學習? - MarkTechPost

防止 Amazon S3 物件的非預期加密

防止 Amazon S3 物件的非預期加密

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。