大型視覺編碼器的多模態自回歸預訓練

*平等貢獻者

在大型多模態模型中，一個主導的範式是將一個大型語言解碼器與一個視覺編碼器配對。雖然已經知道如何為多模態任務預訓練和調整語言解碼器，但對於視覺編碼器應如何預訓練則不太清楚。一個事實上的標準是使用區分性目標（例如對比損失）來預訓練視覺編碼器。這導致了預訓練與生成自回歸下游任務之間的不匹配。同時，隨著它們在語言領域的成功，自回歸圖像模型已被證明能夠預訓練出強大且可擴展的視覺編碼器。本文介紹了AIMv2，一系列大型、強大的視覺編碼器，這些編碼器是使用多模態自回歸目標進行預訓練的。得益於一個能同時生成原始圖像片段和文本標記的多模態解碼器，我們的模型不僅在多模態任務中表現出色，還在本地化、基礎定位和分類等視覺識別基準上表現優異。此外，我們展示了AIMv2模型訓練效率高，並且在預訓練期間所需樣本數量顯著少於當前的最先進技術。

模型權重可在 HuggingFace 獲得。

Source link

Tags: 大型視覺編碼器的多模態自回歸預訓練