視覺語言模型(VLMs)已經取得了很大的進展,但在不同任務上有效地泛化仍然面臨重大挑戰。這些模型常常在處理各種輸入數據類型時遇到困難,例如不同解析度的圖像或需要細微理解的文本提示。此外,找到計算效率和模型可擴展性之間的平衡也不是一件容易的事。這些挑戰使得 VLMs 對於許多用戶來說不太實用,特別是那些需要能夠適應各種現實應用的解決方案的用戶,從文件識別到詳細的圖像標題生成。
谷歌 DeepMind 最近推出了 PaliGemma 2:一系列新的開放權重視覺語言模型(3B、10B 和 28B)。這些模型的參數大小分別為 30 億(3B)、100 億(10B)和 280 億(28B)。這些模型支持 224×224、448×448 和 896×896 像素的解析度。此次發布包括九個預訓練模型,具有不同的大小和解析度組合,使其在多種用例中都能靈活應用。其中兩個模型還在 DOCCI 數據集上進行了微調,該數據集包含圖像-文本標題對,並支持 448×448 像素解析度的 3B 和 10B 參數大小。由於這些模型是開放權重的,因此可以輕鬆地作為原始 PaliGemma 的直接替代品或升級,為用戶提供了更多的轉移學習和微調的靈活性。
技術細節
PaliGemma 2 在原始 PaliGemma 模型的基礎上,結合了 SigLIP-So400m 視覺編碼器和 Gemma 2 語言模型。這些模型分三個階段進行訓練,使用不同的圖像解析度(224px、448px 和 896px),以根據每個任務的具體需求提供靈活性和可擴展性。PaliGemma 2 已經在 30 多個轉移任務上進行了測試,包括圖像標題生成、視覺問題回答(VQA)、視頻任務和與光學字符識別(OCR)相關的任務,如表格結構識別和分子結構識別。不同變體的 PaliGemma 2 在不同條件下表現出色,通常較大的模型和較高的解析度表現更佳。例如,28B 變體提供了最高的性能,但需要更多的計算資源,適合在延遲不是主要問題的情況下使用。
PaliGemma 2 系列有幾個顯著的特點。首先,提供不同規模和解析度的模型,讓研究人員和開發者可以根據自己的具體需求、計算資源和效率與準確性之間的平衡來調整性能。其次,這些模型在多種挑戰性任務中表現強勁。例如,PaliGemma 2 在文本檢測、光學音樂譜識別和放射學報告生成的基準測試中取得了最高分。在 OCR 的 HierText 基準測試中,PaliGemma 2 的 896px 變體在單詞級識別準確性上超過了之前的模型,顯示出精確度和召回率的提高。基準測試結果還表明,增加模型的大小和解析度通常會導致在多樣任務中的更好性能,突顯了視覺和文本數據表示的有效結合。
結論
谷歌推出的 PaliGemma 2 代表了視覺語言模型的一個重要進步。通過提供九個不同規模的開放權重模型,PaliGemma 2 滿足了從資源受限場景到高性能研究任務的廣泛應用和用戶需求。這些模型的多功能性和處理多樣轉移任務的能力,使其成為學術界和行業應用的寶貴工具。隨著越來越多的用例整合多模態輸入,PaliGemma 2 在未來的人工智慧中將能提供靈活而有效的解決方案。
查看 Hugging Face 上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。如果你喜歡我們的工作,你會喜歡我們的電子報。別忘了加入我們的 60k+ 機器學習 SubReddit。
🚨 [必參加的網路研討會]:‘將概念驗證轉變為生產就緒的 AI 應用和代理’(推廣)
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!