谷歌深度思維剛剛發布 PaliGemma 2：一個新的開放權重視覺語言模型系列（3B、10B 和 28B）

視覺語言模型（VLMs）已經取得了很大的進展，但在不同任務上有效地泛化仍然面臨重大挑戰。這些模型常常在處理各種輸入數據類型時遇到困難，例如不同解析度的圖像或需要細微理解的文本提示。此外，找到計算效率和模型可擴展性之間的平衡也不是一件容易的事。這些挑戰使得 VLMs 對於許多用戶來說不太實用，特別是那些需要能夠適應各種現實應用的解決方案的用戶，從文件識別到詳細的圖像標題生成。

谷歌 DeepMind 最近推出了 PaliGemma 2：一系列新的開放權重視覺語言模型（3B、10B 和 28B）。這些模型的參數大小分別為 30 億（3B）、100 億（10B）和 280 億（28B）。這些模型支持 224×224、448×448 和 896×896 像素的解析度。此次發布包括九個預訓練模型，具有不同的大小和解析度組合，使其在多種用例中都能靈活應用。其中兩個模型還在 DOCCI 數據集上進行了微調，該數據集包含圖像-文本標題對，並支持 448×448 像素解析度的 3B 和 10B 參數大小。由於這些模型是開放權重的，因此可以輕鬆地作為原始 PaliGemma 的直接替代品或升級，為用戶提供了更多的轉移學習和微調的靈活性。

技術細節

PaliGemma 2 在原始 PaliGemma 模型的基礎上，結合了 SigLIP-So400m 視覺編碼器和 Gemma 2 語言模型。這些模型分三個階段進行訓練，使用不同的圖像解析度（224px、448px 和 896px），以根據每個任務的具體需求提供靈活性和可擴展性。PaliGemma 2 已經在 30 多個轉移任務上進行了測試，包括圖像標題生成、視覺問題回答（VQA）、視頻任務和與光學字符識別（OCR）相關的任務，如表格結構識別和分子結構識別。不同變體的 PaliGemma 2 在不同條件下表現出色，通常較大的模型和較高的解析度表現更佳。例如，28B 變體提供了最高的性能，但需要更多的計算資源，適合在延遲不是主要問題的情況下使用。

PaliGemma 2 系列有幾個顯著的特點。首先，提供不同規模和解析度的模型，讓研究人員和開發者可以根據自己的具體需求、計算資源和效率與準確性之間的平衡來調整性能。其次，這些模型在多種挑戰性任務中表現強勁。例如，PaliGemma 2 在文本檢測、光學音樂譜識別和放射學報告生成的基準測試中取得了最高分。在 OCR 的 HierText 基準測試中，PaliGemma 2 的 896px 變體在單詞級識別準確性上超過了之前的模型，顯示出精確度和召回率的提高。基準測試結果還表明，增加模型的大小和解析度通常會導致在多樣任務中的更好性能，突顯了視覺和文本數據表示的有效結合。

結論

谷歌推出的 PaliGemma 2 代表了視覺語言模型的一個重要進步。通過提供九個不同規模的開放權重模型，PaliGemma 2 滿足了從資源受限場景到高性能研究任務的廣泛應用和用戶需求。這些模型的多功能性和處理多樣轉移任務的能力，使其成為學術界和行業應用的寶貴工具。隨著越來越多的用例整合多模態輸入，PaliGemma 2 在未來的人工智慧中將能提供靈活而有效的解決方案。

查看 Hugging Face 上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。如果你喜歡我們的工作，你會喜歡我們的電子報。別忘了加入我們的 60k+ 機器學習 SubReddit。

🚨 [必參加的網路研討會]：‘將概念驗證轉變為生產就緒的 AI 應用和代理’（推廣）

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

谷歌深度思維剛剛發布 PaliGemma 2：一個新的開放權重視覺語言模型系列（3B、10B 和 28B）

Canva 徹底改變了平面設計它能在 AI 時代中生存嗎？

我們對人工智慧經濟學的了解有多少？ | 麻省理工學院新聞

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2027 年 AI 預測人類水平 AI 的全新里程碑

AI 技術對人類智能的影響我們在失去什麼？

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

我們對人工智慧經濟學的了解有多少？ | 麻省理工學院新聞

隱藏的基礎設施危機：為什麼首席資訊官在IT人才管理中面臨完美風暴

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

谷歌深度思維剛剛發布 PaliGemma 2：一個新的開放權重視覺語言模型系列（3B、10B 和 28B）

技術細節

結論

Canva 徹底改變了平面設計 它能在 AI 時代中生存嗎？

我們對人工智慧經濟學的了解有多少？ | 麻省理工學院新聞

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Canva 徹底改變了平面設計它能在 AI 時代中生存嗎？

發佈留言取消回覆