在人工智慧的領域中,讓大型語言模型(LLMs)能夠理解和與圖形使用者介面(GUIs)互動一直是一個重要的挑戰。雖然LLMs擅長處理文字數據,但在解讀圖像元素如圖標、按鈕和選單時,常常會遇到困難。這種限制使得它們在需要與以視覺為主的軟體介面無縫互動的任務中,效果不佳。
為了解決這個問題,微軟推出了OmniParser V2,這是一個旨在增強LLMs對GUI理解能力的工具。OmniParser V2能將使用者介面的截圖轉換為結構化的機器可讀數據,使得LLMs能更有效地理解和與各種軟體介面互動。這一發展旨在縮短文字和視覺數據處理之間的差距,促進更全面的AI應用。
OmniParser V2主要通過兩個組件運作:檢測和標題生成。檢測模組使用經過微調的YOLOv8模型來識別截圖中的互動元素,如按鈕和圖標。同時,標題生成模組則使用經過微調的Florence-2基礎模型為這些元素生成描述性標籤,提供有關它們在介面中功能的上下文。這種結合的方法使得LLMs能夠建立對GUI的詳細理解,這對於準確的互動和任務執行至關重要。
OmniParser V2的一個重大改進是其訓練數據集的增強。這個工具已經在更廣泛和精煉的圖標標題生成和定位數據集上進行訓練,這些數據集來自廣泛使用的網頁和應用程式。這個豐富的數據集提高了模型在檢測和描述較小互動元素方面的準確性,這對於有效的GUI互動至關重要。此外,通過優化圖標標題生成模型處理的圖像大小,OmniParser V2相比於其前一版本實現了60%的延遲減少,在A100 GPU上每幀的平均處理時間為0.6秒,而在單個RTX 4090 GPU上為0.8秒。
OmniParser V2的有效性通過其在ScreenSpot Pro基準測試中的表現得以證明,這是一個評估GUI定位能力的框架。當與GPT-4o結合使用時,OmniParser V2達到了39.6%的平均準確率,這比GPT-4o的基線分數0.8%有了顯著的提升。這一改進突顯了該工具使LLMs能夠準確解讀和與複雜GUI互動的能力,即使是那些具有高解析度顯示和小目標圖標的介面。
為了支持整合和實驗,微軟開發了OmniTool,這是一個包含OmniParser V2及開發代理所需工具的docker化Windows系統。OmniTool與多種先進的LLMs兼容,包括OpenAI的4o/o1/o3-mini、DeepSeek的R1、Qwen的2.5VL和Anthropic的Sonnet。這種靈活性使得開發者能夠在不同模型和應用中使用OmniParser V2,簡化了基於視覺的GUI代理的創建。
總之,OmniParser V2代表了在將LLMs與圖形使用者介面整合方面的一項重要進展。通過將使用者介面的截圖轉換為結構化數據,它使得LLMs能更有效地理解和與軟體介面互動。檢測準確性、延遲減少和基準性能的技術提升,使OmniParser V2成為開發者創建能夠自主導航和操作GUI的智能代理的重要工具。隨著AI的持續發展,像OmniParser V2這樣的工具對於縮短文字和視覺數據處理之間的差距至關重要,這將導致更直觀和更強大的AI系統。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!