*平等貢獻者
在大型多模態模型中,一個主導的範式是將一個大型語言解碼器與一個視覺編碼器配對。雖然已經知道如何為多模態任務預訓練和調整語言解碼器,但對於視覺編碼器應如何預訓練則不太清楚。一個事實上的標準是使用區分性目標(例如對比損失)來預訓練視覺編碼器。這導致了預訓練與生成自回歸下游任務之間的不匹配。同時,隨著它們在語言領域的成功,自回歸圖像模型已被證明能夠預訓練出強大且可擴展的視覺編碼器。本文介紹了AIMv2,一系列大型、強大的視覺編碼器,這些編碼器是使用多模態自回歸目標進行預訓練的。得益於一個能同時生成原始圖像片段和文本標記的多模態解碼器,我們的模型不僅在多模態任務中表現出色,還在本地化、基礎定位和分類等視覺識別基準上表現優異。此外,我們展示了AIMv2模型訓練效率高,並且在預訓練期間所需樣本數量顯著少於當前的最先進技術。
模型權重可在 HuggingFace 獲得。