星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

IBM AI 發布 Granite-Vision-3.1-2B:一個在各種任務上表現超卓的小型視覺語言模型

2025-02-08
in AI 綜合新聞
0 0
0
IBM AI 發布 Granite-Vision-3.1-2B:一個在各種任務上表現超卓的小型視覺語言模型
Share on FacebookShare on Twitter
Your Ad


在人工智慧中,視覺和文字數據的整合是一個複雜的挑戰。傳統的模型常常難以準確解讀結構化的視覺文件,例如表格、圖表、資訊圖和圖解。這個限制影響了自動內容提取和理解,而這對於數據分析、信息檢索和決策制定等應用非常重要。隨著組織越來越依賴人工智慧驅動的見解,能夠有效處理視覺和文字信息的模型需求顯著增加。

IBM針對這個挑戰推出了Granite-Vision-3.1-2B,這是一個專為文件理解設計的緊湊型視覺語言模型。這個模型能夠從各種視覺格式中提取內容,包括表格、圖表和圖解。它在一個精心策劃的數據集上進行訓練,這些數據集包括公共和合成來源,旨在處理各種與文件相關的任務。Granite-Vision-3.1-2B是從Granite大型語言模型微調而來,整合了圖像和文本的模式,以提高其解釋能力,使其適用於多種實際應用。

這個模型包含三個主要組件:

  • 視覺編碼器:使用SigLIP來高效處理和編碼視覺數據。
  • 視覺-語言連接器:一個具有GELU激活函數的兩層多層感知器(MLP),旨在橋接視覺和文字信息。
  • 大型語言模型:基於Granite-3.1-2B-Instruct,具有128k的上下文長度,用於處理複雜和廣泛的輸入。

訓練過程基於LlaVA,並結合了多層編碼器特徵,以及AnyRes中的更密集網格解析度。這些改進增強了模型理解詳細視覺內容的能力。這種架構使模型能夠執行各種視覺文件任務,例如分析表格和圖表、執行光學字符識別(OCR),以及更準確地回答基於文件的查詢。

評估結果顯示,Granite-Vision-3.1-2B在多個基準測試中表現良好,特別是在文件理解方面。例如,它在ChartQA基準測試中獲得了0.86的分數,超越了其他在1B-4B參數範圍內的模型。在TextVQA基準測試中,它獲得了0.76的分數,顯示出在解釋和回答基於圖像中嵌入的文字信息問題方面的強大表現。這些結果突顯了該模型在需要精確視覺和文字數據處理的企業應用中的潛力。

IBM的Granite-Vision-3.1-2B代表了視覺語言模型的一個顯著進步,提供了一種平衡的視覺文件理解方法。其架構和訓練方法使其能夠高效地解釋和分析複雜的視覺和文字數據。由於原生支持變壓器和vLLM,該模型可適應各種使用案例,並可在雲端環境中部署,例如Colab T4。這種可及性使其成為研究人員和專業人士提升人工智慧驅動的文件處理能力的實用工具。

請查看 ibm-granite/granite-vision-3.1-2b-preview 和 ibm-granite/granite-3.1-2b-instruct。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的75k+ ML SubReddit。

🚨 推薦的開源人工智慧平台:‘IntellAgent 是一個開源多代理框架,用於評估複雜的對話人工智慧系統’(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: GraniteVision3.12B一個在各種任務上表現超卓的小型視覺語言模型IBM發布
Previous Post

隱性獎勵強化過程 (PRIME):一個可擴展的機器學習框架以增強推理能力

Next Post

100 個生成式人工智慧應用案例

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
Next Post
100 個生成式人工智慧應用案例

100 個生成式人工智慧應用案例

英國秘密命令要求蘋果提供用戶加密數據的訪問權限

英國秘密命令要求蘋果提供用戶加密數據的訪問權限

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。