視覺與語言導航 (Vision-and-Language Navigation, VLN) 是一種結合視覺感知和自然語言理解的技術,目的是引導機器人在三維環境中導航。這項技術的目標是讓機器能夠像人類一樣,根據指示在複雜的空間中有效移動。這些進步在機器人技術、擴增實境和智慧助手技術中具有潛力,因為語言指示可以引導與實體空間的互動。
在 VLN 研究中,核心問題是缺乏高品質的標註數據集,這些數據集需要將導航路徑與精確的自然語言指示配對。手動標註這些數據集需要大量的資源、專業知識和努力,使得這個過程既昂貴又耗時。此外,這些標註通常無法提供足夠的語言豐富性和準確性,限制了模型在不同環境中的有效性,影響其在現實應用中的表現。
現有的解決方案依賴於合成數據生成和環境增強。合成數據是通過路徑到指示模型生成的,而模擬器則用來多樣化環境。然而,這些方法的質量往往不足,導致語言和導航路徑之間的數據對齊不良。這種不對齊會導致機器的表現不佳。問題還因為評估指示的語意和方向與其對應路徑的對齊度的指標不足而變得更加複雜,這使得質量控制變得困難。
來自上海人工智慧實驗室、北卡羅來納大學教堂山分校、Adobe 研究和南京大學的研究人員提出了一種名為自我精煉數據飛輪 (Self-Refining Data Flywheel, SRDF) 的系統,旨在通過指示生成器和導航器之間的相互合作,迭代地改善數據集和模型。這種完全自動化的方法消除了人為標註的需求。SRDF 系統從一個小型的高品質人類標註數據集開始,生成合成指示並用於訓練基礎導航器。導航器然後評估這些指示的準確性,過濾掉低品質數據,以便在後續迭代中訓練更好的生成器。這種迭代精煉確保了數據質量和模型性能的持續改進。
SRDF 系統由兩個主要組件組成:指示生成器和導航器。生成器使用先進的多模態語言模型從路徑創建合成導航指示。導航器則通過測量其跟隨生成路徑的準確性來評估這些指示。根據嚴格的準確性指標來識別高品質數據,例如成功率加權路徑長度 (Success weighted by Path Length, SPL) 和標準化動態時間扭曲 (normalized Dynamic Time Warping, nDTW)。低品質數據要麼重新生成,要麼排除,確保僅使用可靠且高度對齊的數據進行訓練。經過三次迭代,系統精煉出包含 2000 萬個高準確性指示-路徑對的數據集,涵蓋 860 種不同的環境。
SRDF 系統在各種指標和基準測試中顯示出卓越的性能提升。在房間到房間 (Room-to-Room, R2R) 數據集中,導航器的 SPL 指標從 70% 上升到前所未有的 78%,超過了人類基準的 76%。這是 VLN 代理首次超越人類水平的導航準確性。指示生成器也取得了令人印象深刻的結果,SPICE 分數從 23.5 增加到 26.2,超越了所有先前的視覺與語言導航指示生成方法。此外,SRDF 生成的數據促進了下游任務的優越泛化,包括長期導航 (R4R) 和基於對話的導航 (CVDN),在所有測試的數據集中都達到了最先進的性能。
具體來說,該系統在長距離導航方面表現出色,在 R4R 數據集上成功率提高了 16.6%。CVDN 數據集在目標進度指標上顯著提升,超越了所有先前的模型。此外,SRDF 的可擴展性明顯,指示生成器在更大的數據集和多樣化的環境中持續改進,確保在不同任務和基準測試中穩健的表現。研究人員還報告了指示的多樣性和豐富性有所增強,SRDF 生成的數據集中納入了超過 10,000 個獨特單詞,解決了先前數據集的詞彙限制。
SRDF 方法通過自動化數據集的精煉,解決了 VLN 中長期存在的數據稀缺挑戰。導航器和指示生成器之間的迭代合作確保了兩個組件的持續增強,最終導致高度對齊的高品質數據集。這一突破性方法在 VLN 研究中樹立了新的標準,展示了數據質量和對齊在推進具身人工智慧中的關鍵角色。SRDF 能夠超越人類表現並在多樣化任務中進行泛化,預示著在開發智能導航系統方面將推動重大進展。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。另外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60,000 多名機器學習 SubReddit。
🚨 熱門消息:LG 人工智慧研究發布 EXAONE 3.5:三個開源雙語前沿人工智慧模型,提供無與倫比的指令跟隨和長上下文理解,實現生成式人工智慧卓越的全球領導地位……。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!