在人工智慧中,視覺和文字數據的整合是一個複雜的挑戰。傳統的模型常常難以準確解讀結構化的視覺文件,例如表格、圖表、資訊圖和圖解。這個限制影響了自動內容提取和理解,而這對於數據分析、信息檢索和決策制定等應用非常重要。隨著組織越來越依賴人工智慧驅動的見解,能夠有效處理視覺和文字信息的模型需求顯著增加。
IBM針對這個挑戰推出了Granite-Vision-3.1-2B,這是一個專為文件理解設計的緊湊型視覺語言模型。這個模型能夠從各種視覺格式中提取內容,包括表格、圖表和圖解。它在一個精心策劃的數據集上進行訓練,這些數據集包括公共和合成來源,旨在處理各種與文件相關的任務。Granite-Vision-3.1-2B是從Granite大型語言模型微調而來,整合了圖像和文本的模式,以提高其解釋能力,使其適用於多種實際應用。
這個模型包含三個主要組件:
- 視覺編碼器:使用SigLIP來高效處理和編碼視覺數據。
- 視覺-語言連接器:一個具有GELU激活函數的兩層多層感知器(MLP),旨在橋接視覺和文字信息。
- 大型語言模型:基於Granite-3.1-2B-Instruct,具有128k的上下文長度,用於處理複雜和廣泛的輸入。
訓練過程基於LlaVA,並結合了多層編碼器特徵,以及AnyRes中的更密集網格解析度。這些改進增強了模型理解詳細視覺內容的能力。這種架構使模型能夠執行各種視覺文件任務,例如分析表格和圖表、執行光學字符識別(OCR),以及更準確地回答基於文件的查詢。
評估結果顯示,Granite-Vision-3.1-2B在多個基準測試中表現良好,特別是在文件理解方面。例如,它在ChartQA基準測試中獲得了0.86的分數,超越了其他在1B-4B參數範圍內的模型。在TextVQA基準測試中,它獲得了0.76的分數,顯示出在解釋和回答基於圖像中嵌入的文字信息問題方面的強大表現。這些結果突顯了該模型在需要精確視覺和文字數據處理的企業應用中的潛力。
IBM的Granite-Vision-3.1-2B代表了視覺語言模型的一個顯著進步,提供了一種平衡的視覺文件理解方法。其架構和訓練方法使其能夠高效地解釋和分析複雜的視覺和文字數據。由於原生支持變壓器和vLLM,該模型可適應各種使用案例,並可在雲端環境中部署,例如Colab T4。這種可及性使其成為研究人員和專業人士提升人工智慧驅動的文件處理能力的實用工具。
請查看 ibm-granite/granite-vision-3.1-2b-preview 和 ibm-granite/granite-3.1-2b-instruct。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的75k+ ML SubReddit。
🚨 推薦的開源人工智慧平台:‘IntellAgent 是一個開源多代理框架,用於評估複雜的對話人工智慧系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!