視覺語言模型 (VLMs) 大幅提升了人工智慧 (AI) 處理多模態資訊的能力,但仍面臨一些挑戰。像是 GPT-4V 和 Gemini-1.5-Pro 這類專有模型表現優異,但缺乏透明度,限制了它們的適應性。開源替代方案通常因為資料多樣性、訓練方法和計算資源的限制而難以匹敵這些模型。此外,對於訓練後資料策略的文檔有限,使得複製變得困難。為了解決這些問題,NVIDIA AI 推出了 Eagle 2,這是一個以結構化和透明的方式進行資料整理和模型訓練的 VLM。
NVIDIA AI 推出 Eagle 2:透明的 VLM 框架
Eagle 2 提供了一種全新的方法,優先考慮資料策略的開放性。與大多數僅提供訓練權重的模型不同,Eagle 2 詳細說明了其資料收集、篩選、增強和選擇的過程。這項舉措旨在為開源社群提供工具,讓他們能夠開發出具有競爭力的 VLM,而不必依賴專有資料集。
Eagle2-9B 是 Eagle 2 系列中最先進的模型,其表現與多達 70B 參數的模型相當。透過改進訓練後的資料策略,Eagle 2 在不需要過多計算資源的情況下優化了性能。
Eagle 2 的主要創新
Eagle 2 的優勢來自三個主要創新:精煉的資料策略、多階段訓練方法和以視覺為中心的架構。
資料策略
該模型遵循多樣性優先,再到質量的方式,從超過 180 個來源中整理資料集,然後通過篩選和選擇進行精煉。
一個結構化的資料精煉流程包括錯誤分析、思考鏈 (CoT) 解釋、基於規則的問答生成和資料格式化,以提高效率。
三階段訓練框架
第一階段通過訓練 MLP 連接器來對齊視覺和語言模態。
第一階段 1.5 引入多樣的大規模資料,強化模型的基礎。
第二階段使用高質量的指導調整資料集來微調模型。
視覺編碼器的平鋪混合 (MoVE)
該模型整合了 SigLIP 和 ConvNeXt 作為雙重視覺編碼器,增強了圖像理解。
高解析度的平鋪確保了細微細節的有效保留。
平衡感知的貪婪背包方法優化了資料打包,降低了訓練成本,同時提高了樣本效率。
這些元素使得 Eagle 2 在各種應用中既強大又靈活。
性能和基準測試洞察
Eagle 2 的能力經過嚴格測試,顯示出在多個基準測試中的強大表現:
- Eagle2-9B 在 DocVQA 上達到 92.6% 的準確率,超越了 InternVL2-8B (91.6%) 和 GPT-4V (88.4%)。
- 在 OCRBench 中,Eagle 2 得分 868,超過 Qwen2-VL-7B (845) 和 MiniCPM-V-2.6 (852),突顯了其在文本識別方面的優勢。
- MathVista 的表現比基準提高了 10 分以上,強化了三階段訓練方法的有效性。
- ChartQA、OCR QA 和多模態推理任務顯示出顯著改善,在關鍵領域超越了 GPT-4V。
此外,訓練過程設計為高效。先進的子集選擇技術將資料集大小從 1270 萬減少到 460 萬樣本,保持準確性同時提高資料效率。
結論
Eagle 2 代表了在讓高性能 VLM 更加可及和可重複方面的一大進步。通過強調透明的資料中心方法,它縮小了開源可及性與專有模型性能之間的差距。該模型在資料策略、訓練方法和視覺架構方面的創新,使其成為研究人員和開發者的有力選擇。
通過公開分享其方法論,NVIDIA AI 促進了一個協作的 AI 研究環境,讓社群能夠在這些見解的基礎上進行建設,而不必依賴封閉的模型。隨著 AI 的持續發展,Eagle 2 展現了深思熟慮的資料整理和訓練策略如何能夠導致強大且高效的視覺語言模型。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!