將視覺和語言能力結合在人工智慧(AI)中,讓我們在視覺語言模型(VLMs)方面取得了突破。這些模型的目的是同時處理和解釋視覺和文字數據,這樣就可以應用在圖片說明、視覺問答、光學字符識別和多模態內容分析等領域。VLMs 在開發自動化系統、增強人機互動和高效文件處理工具方面扮演著重要角色,因為它們能夠彌補這兩種數據模式之間的差距。不過,處理高解析度的視覺數據和多樣的文字輸入仍然是這個領域的一大挑戰。
現有的研究已經針對這些限制進行了一些探討,但使用的靜態視覺編碼器無法適應高解析度和變化的輸入大小。與視覺編碼器一起使用的預訓練語言模型經常會引入效率低下的問題,因為它們並未針對多模態任務進行優化。雖然一些模型採用了稀疏計算技術來管理複雜性,但它們在不同數據集上的準確性仍然需要改進。此外,這些模型使用的訓練數據集通常缺乏多樣性和針對特定任務的細緻度,進一步影響了性能。例如,由於這些限制,許多模型在專業任務如圖表解讀或密集文件分析中表現不佳。
來自DeepSeek-AI的研究人員推出了DeepSeek-VL2系列,這是一種新一代的開源專家混合(MoE)視覺語言模型。這些模型利用了尖端的創新技術,包括動態分塊進行視覺編碼、用於語言任務的多頭潛在注意力機制,以及DeepSeek-MoE框架。DeepSeek-VL2提供了三種不同配置,具有不同的激活參數(激活參數是指在特定任務或計算過程中動態使用的模型參數子集):
- DeepSeek-VL2-Tiny,擁有33.7億個參數(10億激活參數)
- DeepSeek-VL2-Small,擁有161億個參數(28億激活參數)
- DeepSeek-VL2,擁有275億個參數(45億激活參數)
這種可擴展性確保了對各種應用需求和計算預算的適應性。
DeepSeek-VL2的架構旨在優化性能,同時最小化計算需求。動態分塊方法確保高解析度圖像在處理過程中不會失去關鍵細節,特別適合於文件分析和視覺基準任務。此外,多頭潛在注意力機制使模型能夠高效管理大量文字數據,減少了通常與處理密集語言輸入相關的計算負擔。DeepSeek-MoE框架在任務執行過程中僅激活部分參數,進一步提高了可擴展性和效率。DeepSeek-VL2的訓練包含了一個多樣且全面的多模態數據集,使模型能夠在光學字符識別(OCR)、視覺問答和圖表解讀等各種任務中表現出色。
在性能檢測中,例如,小型配置在OCR任務中達到了92.3%的驚人準確率,顯著超越了現有模型。在視覺基準測試中,該模型的精確度較其前身提高了15%。此外,DeepSeek-VL2顯示出卓越的效率,所需的計算資源比可比模型少30%,同時保持了最先進的準確性。結果還突顯了該模型在各種任務中的泛化能力,其標準變體在多模態推理基準中取得了領先的分數。這些成就強調了所提出模型在解決高解析度圖像和文本處理挑戰方面的有效性。
從DeepSeek-VL2模型系列中可以得出幾個要點:
- 通過將高解析度圖像分割為較小的塊,模型改善了特徵提取並減少了計算負擔。這種方法對於密集文件分析和複雜的視覺佈局特別有用。
- 提供的微型(3B)、小型(16B)和標準(27B)配置確保了對各種應用的適應性,從輕量級部署到資源密集型任務。
- 使用包含OCR和視覺基準任務的綜合數據集提高了模型的泛化能力和針對特定任務的性能。
- 稀疏計算框架僅激活必要的參數,從而在不妨礙準確性的情況下降低計算成本。
總之,DeepSeek-VL2是一系列開源視覺語言模型,擁有三種變體(1.8B、2.8B和4.5B激活參數)。研究團隊推出的這一模型系列在解決可擴展性、計算效率和任務適應性方面的關鍵限制,並在現實應用中表現出色。其創新的動態分塊和多頭潛在注意力機制使得圖像處理精確、文本處理高效,在OCR和視覺基準等任務中達到了最先進的結果。這一模型系列為AI性能設立了新的標準,並提供了可擴展的配置和全面的多模態數據集。
在Hugging Face上查看這些模型。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+ ML SubReddit。
🚨 熱門消息:LG AI研究部門發布EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,為生成AI卓越的全球領導地位奠定基礎……。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!