在專業環境中,圖形使用者介面 (GUI) 代理面臨三個重要挑戰:(1) 專業應用程式比一般用途軟體更複雜,需要對複雜的佈局有詳細的理解;(2) 專業工具的解析度較高,導致目標尺寸變小,並降低了定位的準確性;(3) 依賴額外的工具和文件,使工作流程變得更加複雜。這些挑戰顯示出需要更先進的基準和解決方案,以提升 GUI 代理在這些要求高的情境中的表現。
目前的 GUI 定位模型和基準無法滿足專業環境的需求。像是 ScreenSpot 的工具設計用於低解析度的任務,缺乏能夠準確模擬現實情境的多樣性。像 OS-Atlas 和 UGround 的模型在計算上效率低下,當目標很小或介面圖示豐富時,常常無法正常運作,這在專業應用中很常見。此外,缺乏多語言支持也降低了它們在全球工作流程中的適用性。這些不足之處突顯了需要更全面和現實的基準來推進這個領域。
來自新加坡國立大學 (National University of Singapore)、華東師範大學 (East China Normal University) 和香港浸會大學 (Hong Kong Baptist University) 的研究團隊介紹了 ScreenSpot-Pro:一個專為專業高解析度環境量身定制的新框架。這個基準擁有 1,581 個任務的數據集,涵蓋 23 種應用程式,涉及開發、創意工具、計算機輔助設計 (CAD)、科學平台和辦公套件等行業。它包含高解析度的全螢幕視覺和專家註解,確保準確性和真實性。多語言指南涵蓋英語和中文,以擴大評估範圍。ScreenSpot-Pro 的獨特之處在於它記錄了實際工作流程,這些工作流程產生了真實且高品質的註解,因此成為評估和發展 GUI 定位模型的工具。
ScreenSpot-Pro 數據集捕捉了現實且具有挑戰性的情境。這個數據集的基礎是高解析度的圖像,目標區域平均僅佔整個螢幕的 0.07%,因此指向微小的 GUI 元素。數據由具有相關應用經驗的專業用戶收集,他們使用專業工具來確保註解的準確性。此外,該數據集支持多語言功能,以測試雙語功能,並包含多個工作流程以捕捉真實專業任務的細微差別。這些特點使其特別適合於評估和提升 GUI 代理的準確性和靈活性。
利用 ScreenSpot-Pro 分析當前的 GUI 定位模型顯示出它們在管理高解析度專業環境方面的重大不足。OS-Atlas-7B 的準確率達到最高的 18.9%。然而,像 ReGround 這樣的迭代方法顯示出提升性能的能力,通過多步驟的方法達到 40.2% 的準確率。小型元件,如圖示,帶來了顯著的困難,而雙語任務進一步突顯了模型的限制。這些發現強調了需要改進技術,以增強在複雜 GUI 情境中的上下文理解和韌性。
ScreenSpot-Pro 為專業高解析度環境中的 GUI 代理評估設立了一個變革性的基準。它針對複雜工作流程中的特定挑戰,提供多樣且精確的數據集,以指導 GUI 定位的創新。這一貢獻為更智能、更高效的代理奠定了基礎,支持專業任務的無縫執行,顯著提升各行各業的生產力和創新。
查看論文和數據。所有研究的功勞歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,並加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 60k+ 機器學習 SubReddit。
🚨 免費即將舉行的 AI 網路研討會 (2025年1月15日):利用合成數據和評估智慧提升 LLM 準確性——參加這個研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!