星期三, 14 5 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

谷歌深度思維剛剛發布 PaliGemma 2:一個新的開放權重視覺語言模型系列(3B、10B 和 28B)

2024-12-06
in AI 綜合新聞
0 0
0
谷歌深度思維剛剛發布 PaliGemma 2:一個新的開放權重視覺語言模型系列(3B、10B 和 28B)
Share on FacebookShare on Twitter
Your Ad


視覺語言模型(VLMs)已經取得了很大的進展,但在不同任務上有效地泛化仍然面臨重大挑戰。這些模型常常在處理各種輸入數據類型時遇到困難,例如不同解析度的圖像或需要細微理解的文本提示。此外,找到計算效率和模型可擴展性之間的平衡也不是一件容易的事。這些挑戰使得 VLMs 對於許多用戶來說不太實用,特別是那些需要能夠適應各種現實應用的解決方案的用戶,從文件識別到詳細的圖像標題生成。

谷歌 DeepMind 最近推出了 PaliGemma 2:一系列新的開放權重視覺語言模型(3B、10B 和 28B)。這些模型的參數大小分別為 30 億(3B)、100 億(10B)和 280 億(28B)。這些模型支持 224×224、448×448 和 896×896 像素的解析度。此次發布包括九個預訓練模型,具有不同的大小和解析度組合,使其在多種用例中都能靈活應用。其中兩個模型還在 DOCCI 數據集上進行了微調,該數據集包含圖像-文本標題對,並支持 448×448 像素解析度的 3B 和 10B 參數大小。由於這些模型是開放權重的,因此可以輕鬆地作為原始 PaliGemma 的直接替代品或升級,為用戶提供了更多的轉移學習和微調的靈活性。

技術細節

PaliGemma 2 在原始 PaliGemma 模型的基礎上,結合了 SigLIP-So400m 視覺編碼器和 Gemma 2 語言模型。這些模型分三個階段進行訓練,使用不同的圖像解析度(224px、448px 和 896px),以根據每個任務的具體需求提供靈活性和可擴展性。PaliGemma 2 已經在 30 多個轉移任務上進行了測試,包括圖像標題生成、視覺問題回答(VQA)、視頻任務和與光學字符識別(OCR)相關的任務,如表格結構識別和分子結構識別。不同變體的 PaliGemma 2 在不同條件下表現出色,通常較大的模型和較高的解析度表現更佳。例如,28B 變體提供了最高的性能,但需要更多的計算資源,適合在延遲不是主要問題的情況下使用。

PaliGemma 2 系列有幾個顯著的特點。首先,提供不同規模和解析度的模型,讓研究人員和開發者可以根據自己的具體需求、計算資源和效率與準確性之間的平衡來調整性能。其次,這些模型在多種挑戰性任務中表現強勁。例如,PaliGemma 2 在文本檢測、光學音樂譜識別和放射學報告生成的基準測試中取得了最高分。在 OCR 的 HierText 基準測試中,PaliGemma 2 的 896px 變體在單詞級識別準確性上超過了之前的模型,顯示出精確度和召回率的提高。基準測試結果還表明,增加模型的大小和解析度通常會導致在多樣任務中的更好性能,突顯了視覺和文本數據表示的有效結合。

結論

谷歌推出的 PaliGemma 2 代表了視覺語言模型的一個重要進步。通過提供九個不同規模的開放權重模型,PaliGemma 2 滿足了從資源受限場景到高性能研究任務的廣泛應用和用戶需求。這些模型的多功能性和處理多樣轉移任務的能力,使其成為學術界和行業應用的寶貴工具。隨著越來越多的用例整合多模態輸入,PaliGemma 2 在未來的人工智慧中將能提供靈活而有效的解決方案。

查看 Hugging Face 上的論文和模型。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。如果你喜歡我們的工作,你會喜歡我們的電子報。別忘了加入我們的 60k+ 機器學習 SubReddit。

🚨 [必參加的網路研討會]:‘將概念驗證轉變為生產就緒的 AI 應用和代理’(推廣)



新聞來源

本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!

Tags: 28B2一個新的開放權重視覺語言模型系列3B10BPaliGemma和谷歌深度思維剛剛發布
Previous Post

Canva 徹底改變了平面設計 它能在 AI 時代中生存嗎?

Next Post

我們對人工智慧經濟學的了解有多少? | 麻省理工學院新聞

Related Posts

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言
AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

2025-04-18
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
我們對人工智慧經濟學的了解有多少? | 麻省理工學院新聞

我們對人工智慧經濟學的了解有多少? | 麻省理工學院新聞

隱藏的基礎設施危機:為什麼首席資訊官在IT人才管理中面臨完美風暴

隱藏的基礎設施危機:為什麼首席資訊官在IT人才管理中面臨完美風暴

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。