這篇來自阿爾托大學的AI論文介紹了VQ-VFM-OCL：一種基於量化的物件中心學習視覺基礎模型

物件中心學習（Object-centric learning, OCL）是一個電腦視覺的領域，目的是將視覺場景分解成不同的物件，這樣可以進行更進階的視覺任務，例如預測、推理和決策。傳統的視覺識別方法通常依賴特徵提取，而不明確地分割物件，這限制了它們理解物件之間關係的能力。相對而言，OCL模型將圖片分解成物件級別的表示，使其在需要物件互動的任務中更有效。這種方法受到人類視覺的啟發，人類自然會將場景中的物件分開，以便更好地理解。OCL模型在機器人技術、自主系統和智能影像處理等領域中發揮著重要作用，因為它專注於物件級別的信息。

OCL的一個基本挑戰是在視覺複雜的環境中準確重建物件。現有的方法主要依賴基於像素的自我監督，這在處理複雜紋理時常常會遇到困難，導致物件分割效果不佳。當面對自然場景時，這個問題變得更加明顯，因為物件之間沒有明確的邊界。雖然一些方法試圖通過重建光流或深度圖來減輕這個問題，但這些解決方案需要額外的計算資源和手動標註，使其不易擴展。挑戰在於創造一種能夠有效分離和重建物件，同時保持計算效率的方法。

為了提高OCL的性能，已經開發了幾種方法，但每種方法都有其限制。變分自編碼器（Variational Autoencoders, VAEs）被用來編碼影像表示，但它們依賴於像素重建，這在處理複雜紋理時會遇到挑戰。其他方法利用視覺基礎模型（Vision Foundation Models, VFMs），這些模型能提取更好的物件級特徵，但它們在OCL框架中的整合仍然有限。一些模型使用預訓練的卷積網絡，如ResNet，但這些模型無法完全捕捉物件中心的表示。最近的努力探索了基於變壓器的架構，以提高分割準確性，但在高效重建方面仍然面臨挑戰。對於一種更整合和結構化的OCL方法的需求仍然未得到解決。

來自芬蘭阿爾托大學（Aalto University）的研究人員提出了向量量化視覺基礎模型（Vector-Quantized Vision Foundation Models for Object-Centric Learning, VQ-VFM-OCL或VVO），以解決這些挑戰。這個框架將VFMs完全整合到OCL中，通過提取高質量的物件表示並進行量化來增強重建中的監督。與之前將VFMs視為被動特徵提取器的模型不同，VVO利用它們來改善特徵聚合和重建。通過引入向量量化，該方法確保物件特徵在不同實例之間保持一致，從而提高性能。VVO的架構旨在統一各種OCL方法，形成一個更結構化的框架，使其能夠在不同的視覺任務中無縫運作。

VVO框架由多個組件組成，這些組件協同工作以提高OCL性能。編碼器從VFMs中提取特徵圖，生成影像的密集特徵表示。然後，聚合器處理這個表示，使用插槽注意力（Slot Attention）將物件分割成不同的特徵向量。與傳統的OCL模型不同，VVO引入了一種量化機制，精煉這些特徵，確保它們在不同影像中保持穩定。解碼器則從量化特徵中重建原始影像，提供結構化的學習信號。這種方法改善了物件分割並減少了冗餘，使特徵提取更高效。此外，VVO支持多種OCL解碼策略，包括基於混合、自回歸和擴散的模型，使其成為不同應用的多功能解決方案。

實驗顯示，VVO在物件發現和相關任務上顯著超越了現有的OCL方法。該框架在多個數據集上進行了測試，包括COCO和MOVi-D，達到了比最先進方法更高的分割準確度。在COCO上，VVO的調整Rand指數（Adjusted Rand Index, ARI）得分達到38.5，而前景ARI得分達到39.6。該模型在平均交集聯合（mean Intersection-over-Union, mIoU）和平均最佳重疊（mean Best Overlap, mBO）上也顯示出顯著改善，分別達到7.8和28.5。相比之下，現有模型如DINOSAUR和SlotDiffusion在這些指標上表現較低。此外，VVO在基於視頻的任務中也顯示了其有效性，在物件中心推理和預測方面超越了之前的方法。該框架還在YTVIS這個真實世界的視頻數據集上進行了評估，並在物件分割準確度上超越了之前的模型。

這項研究在物件中心學習方面取得了重要進展，通過將VFMs完全整合到學習流程中，有效解決了OCL中重建複雜紋理的挑戰。通過確保物件表示在不同影像中保持穩定和明確，VVO提高了分割準確性和重建效率。該框架支持多種解碼策略，進一步增加了靈活性。考慮到其在各種數據集上的優越性能，VVO代表了未來OCL發展的一個有前景的方向。它在機器人技術、自主導航和智能監控中的應用可能會導致視覺學習系統的進一步創新。

查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外，歡迎在Twitter上關注我們，並別忘了加入我們的80k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI研究發布NEXUS：一個先進的系統，整合代理AI系統和數據合規標準，以解決AI數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 這篇來自阿爾托大學的AI論文介紹了VQVFMOCL一種基於量化的物件中心學習視覺基礎模型