星期日, 25 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

NVIDIA AI 發布 Eagle2 系列視覺語言模型:在各種多模態基準測試中實現 SOTA 成果

2025-01-30
in AI 綜合新聞
0 0
0
NVIDIA AI 發布 Eagle2 系列視覺語言模型:在各種多模態基準測試中實現 SOTA 成果
Share on FacebookShare on Twitter
Your Ad


視覺語言模型 (VLMs) 大幅提升了人工智慧 (AI) 處理多模態資訊的能力,但仍面臨一些挑戰。像是 GPT-4V 和 Gemini-1.5-Pro 這類專有模型表現優異,但缺乏透明度,限制了它們的適應性。開源替代方案通常因為資料多樣性、訓練方法和計算資源的限制而難以匹敵這些模型。此外,對於訓練後資料策略的文檔有限,使得複製變得困難。為了解決這些問題,NVIDIA AI 推出了 Eagle 2,這是一個以結構化和透明的方式進行資料整理和模型訓練的 VLM。

NVIDIA AI 推出 Eagle 2:透明的 VLM 框架

Eagle 2 提供了一種全新的方法,優先考慮資料策略的開放性。與大多數僅提供訓練權重的模型不同,Eagle 2 詳細說明了其資料收集、篩選、增強和選擇的過程。這項舉措旨在為開源社群提供工具,讓他們能夠開發出具有競爭力的 VLM,而不必依賴專有資料集。

Eagle2-9B 是 Eagle 2 系列中最先進的模型,其表現與多達 70B 參數的模型相當。透過改進訓練後的資料策略,Eagle 2 在不需要過多計算資源的情況下優化了性能。

Eagle 2 的主要創新

Eagle 2 的優勢來自三個主要創新:精煉的資料策略、多階段訓練方法和以視覺為中心的架構。

資料策略

該模型遵循多樣性優先,再到質量的方式,從超過 180 個來源中整理資料集,然後通過篩選和選擇進行精煉。

一個結構化的資料精煉流程包括錯誤分析、思考鏈 (CoT) 解釋、基於規則的問答生成和資料格式化,以提高效率。

三階段訓練框架

第一階段通過訓練 MLP 連接器來對齊視覺和語言模態。

第一階段 1.5 引入多樣的大規模資料,強化模型的基礎。

第二階段使用高質量的指導調整資料集來微調模型。

視覺編碼器的平鋪混合 (MoVE)

該模型整合了 SigLIP 和 ConvNeXt 作為雙重視覺編碼器,增強了圖像理解。

高解析度的平鋪確保了細微細節的有效保留。

平衡感知的貪婪背包方法優化了資料打包,降低了訓練成本,同時提高了樣本效率。

這些元素使得 Eagle 2 在各種應用中既強大又靈活。

性能和基準測試洞察

Eagle 2 的能力經過嚴格測試,顯示出在多個基準測試中的強大表現:

  • Eagle2-9B 在 DocVQA 上達到 92.6% 的準確率,超越了 InternVL2-8B (91.6%) 和 GPT-4V (88.4%)。
  • 在 OCRBench 中,Eagle 2 得分 868,超過 Qwen2-VL-7B (845) 和 MiniCPM-V-2.6 (852),突顯了其在文本識別方面的優勢。
  • MathVista 的表現比基準提高了 10 分以上,強化了三階段訓練方法的有效性。
  • ChartQA、OCR QA 和多模態推理任務顯示出顯著改善,在關鍵領域超越了 GPT-4V。

此外,訓練過程設計為高效。先進的子集選擇技術將資料集大小從 1270 萬減少到 460 萬樣本,保持準確性同時提高資料效率。

結論

Eagle 2 代表了在讓高性能 VLM 更加可及和可重複方面的一大進步。通過強調透明的資料中心方法,它縮小了開源可及性與專有模型性能之間的差距。該模型在資料策略、訓練方法和視覺架構方面的創新,使其成為研究人員和開發者的有力選擇。

通過公開分享其方法論,NVIDIA AI 促進了一個協作的 AI 研究環境,讓社群能夠在這些見解的基礎上進行建設,而不必依賴封閉的模型。隨著 AI 的持續發展,Eagle 2 展現了深思熟慮的資料整理和訓練策略如何能夠導致強大且高效的視覺語言模型。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: Eagle2NVIDIASOTA成果發布系列視覺語言模型在各種多模態基準測試中實現
Previous Post

理解翻譯市場:趨勢與挑戰

Next Post

生成式人工智慧與預測式人工智慧:有何不同?

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
生成式人工智慧與預測式人工智慧:有何不同?

生成式人工智慧與預測式人工智慧:有何不同?

量化空間利用率(QSUR):一種旨在提升大型語言模型(LLMs)效率的新穎後訓練量化方法

量化空間利用率(QSUR):一種旨在提升大型語言模型(LLMs)效率的新穎後訓練量化方法

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。