NVIDIA AI 發布 Eagle2 系列視覺語言模型：在各種多模態基準測試中實現 SOTA 成果

視覺語言模型 (VLMs) 大幅提升了人工智慧 (AI) 處理多模態資訊的能力，但仍面臨一些挑戰。像是 GPT-4V 和 Gemini-1.5-Pro 這類專有模型表現優異，但缺乏透明度，限制了它們的適應性。開源替代方案通常因為資料多樣性、訓練方法和計算資源的限制而難以匹敵這些模型。此外，對於訓練後資料策略的文檔有限，使得複製變得困難。為了解決這些問題，NVIDIA AI 推出了 Eagle 2，這是一個以結構化和透明的方式進行資料整理和模型訓練的 VLM。

NVIDIA AI 推出 Eagle 2：透明的 VLM 框架

Eagle 2 提供了一種全新的方法，優先考慮資料策略的開放性。與大多數僅提供訓練權重的模型不同，Eagle 2 詳細說明了其資料收集、篩選、增強和選擇的過程。這項舉措旨在為開源社群提供工具，讓他們能夠開發出具有競爭力的 VLM，而不必依賴專有資料集。

Eagle2-9B 是 Eagle 2 系列中最先進的模型，其表現與多達 70B 參數的模型相當。透過改進訓練後的資料策略，Eagle 2 在不需要過多計算資源的情況下優化了性能。

Eagle 2 的主要創新

Eagle 2 的優勢來自三個主要創新：精煉的資料策略、多階段訓練方法和以視覺為中心的架構。

資料策略

該模型遵循多樣性優先，再到質量的方式，從超過 180 個來源中整理資料集，然後通過篩選和選擇進行精煉。

一個結構化的資料精煉流程包括錯誤分析、思考鏈 (CoT) 解釋、基於規則的問答生成和資料格式化，以提高效率。

三階段訓練框架

第一階段通過訓練 MLP 連接器來對齊視覺和語言模態。

第一階段 1.5 引入多樣的大規模資料，強化模型的基礎。

第二階段使用高質量的指導調整資料集來微調模型。

視覺編碼器的平鋪混合 (MoVE)

該模型整合了 SigLIP 和 ConvNeXt 作為雙重視覺編碼器，增強了圖像理解。

高解析度的平鋪確保了細微細節的有效保留。

平衡感知的貪婪背包方法優化了資料打包，降低了訓練成本，同時提高了樣本效率。

這些元素使得 Eagle 2 在各種應用中既強大又靈活。

性能和基準測試洞察

Eagle 2 的能力經過嚴格測試，顯示出在多個基準測試中的強大表現：

Eagle2-9B 在 DocVQA 上達到 92.6% 的準確率，超越了 InternVL2-8B (91.6%) 和 GPT-4V (88.4%)。

在 OCRBench 中，Eagle 2 得分 868，超過 Qwen2-VL-7B (845) 和 MiniCPM-V-2.6 (852)，突顯了其在文本識別方面的優勢。

MathVista 的表現比基準提高了 10 分以上，強化了三階段訓練方法的有效性。

ChartQA、OCR QA 和多模態推理任務顯示出顯著改善，在關鍵領域超越了 GPT-4V。

此外，訓練過程設計為高效。先進的子集選擇技術將資料集大小從 1270 萬減少到 460 萬樣本，保持準確性同時提高資料效率。

結論

Eagle 2 代表了在讓高性能 VLM 更加可及和可重複方面的一大進步。通過強調透明的資料中心方法，它縮小了開源可及性與專有模型性能之間的差距。該模型在資料策略、訓練方法和視覺架構方面的創新，使其成為研究人員和開發者的有力選擇。

通過公開分享其方法論，NVIDIA AI 促進了一個協作的 AI 研究環境，讓社群能夠在這些見解的基礎上進行建設，而不必依賴封閉的模型。隨著 AI 的持續發展，Eagle 2 展現了深思熟慮的資料整理和訓練策略如何能夠導致強大且高效的視覺語言模型。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

NVIDIA AI 發布 Eagle2 系列視覺語言模型：在各種多模態基準測試中實現 SOTA 成果

理解翻譯市場：趨勢與挑戰

生成式人工智慧與預測式人工智慧：有何不同？

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2027 年 AI 預測人類水平 AI 的全新里程碑

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 技術對人類智能的影響我們在失去什麼？

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

生成式人工智慧與預測式人工智慧：有何不同？

量化空間利用率（QSUR）：一種旨在提升大型語言模型（LLMs）效率的新穎後訓練量化方法

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

NVIDIA AI 發布 Eagle2 系列視覺語言模型：在各種多模態基準測試中實現 SOTA 成果

NVIDIA AI 推出 Eagle 2：透明的 VLM 框架

Eagle 2 的主要創新

性能和基準測試洞察

結論

理解翻譯市場：趨勢與挑戰

生成式人工智慧與預測式人工智慧：有何不同？

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆