多模態基礎模型在人工智慧中變得越來越重要,這些模型能夠處理和整合多種數據形式,例如圖像、文本和音頻,以應對各種任務。然而,這些系統面臨著重大挑戰。現有模型往往因為依賴有限的數據集和模態而難以在多種模態和任務之間進行泛化。此外,許多當前模型的架構存在負轉移的問題,當新增模態時,某些任務的表現會下降。這些挑戰阻礙了擴展性和提供一致結果的能力,突顯了需要能夠統一多樣數據表示的框架,同時保持任務性能。
瑞士洛桑聯邦理工學院 (EPFL) 的研究人員推出了4M,這是一個開源框架,旨在訓練多功能且可擴展的多模態基礎模型,超越語言的限制。4M通過支持來自圖像、文本、語義特徵和幾何元數據等多種來源的預測,解決了現有方法的局限性。與傳統框架僅支持狹窄任務集不同,4M擴展到支持21種模態,是許多前任模型的三倍。
4M的一個核心創新是使用離散標記化,將多種模態轉換為統一的標記序列。這種統一的表示方式使模型能夠利用基於變壓器的架構進行多種數據類型的聯合訓練。通過簡化訓練過程並消除對特定任務組件的需求,4M在擴展性和效率之間達成了平衡。作為一個開源項目,它對更廣泛的研究社群開放,促進合作和進一步發展。
技術細節與優勢
4M框架利用了針對多模態遮罩建模的編碼器-解碼器變壓器架構。在訓練過程中,模態通過適合其數據類型的專用編碼器進行標記化。例如,圖像數據使用空間離散變分自編碼器 (VAE),而文本和結構化元數據則使用WordPiece標記器進行處理。這種一致的標記化方法確保了多樣數據類型的無縫整合。
4M的一個顯著特點是其細粒度和可控的數據生成能力。通過根據特定模態(例如人類姿勢或元數據)來調整輸出,模型能夠對生成的內容進行高度控制。此外,4M的跨模態檢索能力允許在一種模態(例如文本)中查詢,以檢索另一種模態(例如圖像)中的相關信息。
該框架的擴展性也是其一大優勢。4M在大型數據集如COYO700M和CC12M上進行訓練,包含超過5億個樣本,並可擴展到三十億個參數。通過將密集數據壓縮為稀疏標記序列,它優化了內存和計算效率,使其成為複雜多模態任務的實用選擇。
結果與見解
4M的能力在其在各種任務中的表現中顯而易見。在評估中,它在21種模態上展現出強大的性能,並且與專門模型相比未妥協結果。例如,4M的XL模型在語義分割的mIoU分數達到48.1,與基準相匹配或超越,同時處理的任務數是早期模型的三倍。
該框架在遷移學習方面也表現出色。對下游任務(如3D物體檢測和多模態語義分割)的測試顯示,4M的預訓練編碼器在熟悉和新任務中都保持高準確率。這些結果突顯了其在自動化系統和醫療保健等領域的應用潛力,這些領域中整合多模態數據至關重要。
結論
4M框架標誌著多模態基礎模型發展的一個重要進步。通過解決擴展性和跨模態整合的挑戰,EPFL的貢獻為更靈活和高效的人工智慧系統奠定了基礎。其開源發布鼓勵研究社群在此基礎上進行建設,推動多模態人工智慧的潛力。隨著該領域的發展,像4M這樣的框架將在促進新應用和提升人工智慧能力方面發揮關鍵作用。
查看論文、項目頁面、GitHub頁面、演示和部落格。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+ ML SubReddit。
🚨 免費即將舉行的人工智慧網路研討會(2025年1月15日):使用合成數據和評估智慧提升LLM準確性——加入這個網路研討會,獲取提升LLM模型性能和準確性、同時保護數據隱私的可行見解。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!