ScreenSpot-Pro：首個基準測試將多模態 LLM 引入高解析度專業 GUI 代理和電腦使用環境

在專業環境中，圖形使用者介面 (GUI) 代理面臨三個重要挑戰：(1) 專業應用程式比一般用途軟體更複雜，需要對複雜的佈局有詳細的理解；(2) 專業工具的解析度較高，導致目標尺寸變小，並降低了定位的準確性；(3) 依賴額外的工具和文件，使工作流程變得更加複雜。這些挑戰顯示出需要更先進的基準和解決方案，以提升 GUI 代理在這些要求高的情境中的表現。

目前的 GUI 定位模型和基準無法滿足專業環境的需求。像是 ScreenSpot 的工具設計用於低解析度的任務，缺乏能夠準確模擬現實情境的多樣性。像 OS-Atlas 和 UGround 的模型在計算上效率低下，當目標很小或介面圖示豐富時，常常無法正常運作，這在專業應用中很常見。此外，缺乏多語言支持也降低了它們在全球工作流程中的適用性。這些不足之處突顯了需要更全面和現實的基準來推進這個領域。

來自新加坡國立大學 (National University of Singapore)、華東師範大學 (East China Normal University) 和香港浸會大學 (Hong Kong Baptist University) 的研究團隊介紹了 ScreenSpot-Pro：一個專為專業高解析度環境量身定制的新框架。這個基準擁有 1,581 個任務的數據集，涵蓋 23 種應用程式，涉及開發、創意工具、計算機輔助設計 (CAD)、科學平台和辦公套件等行業。它包含高解析度的全螢幕視覺和專家註解，確保準確性和真實性。多語言指南涵蓋英語和中文，以擴大評估範圍。ScreenSpot-Pro 的獨特之處在於它記錄了實際工作流程，這些工作流程產生了真實且高品質的註解，因此成為評估和發展 GUI 定位模型的工具。

ScreenSpot-Pro 數據集捕捉了現實且具有挑戰性的情境。這個數據集的基礎是高解析度的圖像，目標區域平均僅佔整個螢幕的 0.07%，因此指向微小的 GUI 元素。數據由具有相關應用經驗的專業用戶收集，他們使用專業工具來確保註解的準確性。此外，該數據集支持多語言功能，以測試雙語功能，並包含多個工作流程以捕捉真實專業任務的細微差別。這些特點使其特別適合於評估和提升 GUI 代理的準確性和靈活性。

利用 ScreenSpot-Pro 分析當前的 GUI 定位模型顯示出它們在管理高解析度專業環境方面的重大不足。OS-Atlas-7B 的準確率達到最高的 18.9%。然而，像 ReGround 這樣的迭代方法顯示出提升性能的能力，通過多步驟的方法達到 40.2% 的準確率。小型元件，如圖示，帶來了顯著的困難，而雙語任務進一步突顯了模型的限制。這些發現強調了需要改進技術，以增強在複雜 GUI 情境中的上下文理解和韌性。