像是 Anthropic 的 Computer Use 和 Google DeepMind 的 Mariner,Operator 會截取電腦螢幕的畫面,並掃描像素來判斷可以執行哪些動作。CUA 是其背後的模型,經過訓練可以與人們在網路上使用的圖形介面互動,例如按鈕、文字框和選單。它會掃描螢幕,執行一個動作,再次掃描螢幕,然後執行另一個動作,如此反覆。這樣一來,這個模型就能在大多數網站上執行人類可以使用的任務。
OpenAI 的科學家中野零一(Reiichiro Nakano)表示:「傳統上,模型使用軟體的方式是透過專門的 API。」(API,即應用程式介面,是一段程式碼,像是連接器,讓不同的軟體可以互相連接。)他說,這使得很多應用程式和大多數網站無法使用:「但如果你創建一個可以使用人類日常使用的介面的模型,就能開啟一整個之前無法接觸的軟體範圍。」
CUA 還會將任務分解成更小的步驟,並嘗試逐一解決,當遇到困難時會回溯。OpenAI 表示,CUA 的訓練技術與其所謂的推理模型 o1 和 o3 類似。
OPENAI
OpenAI 已經測試 CUA 在多個行業基準上,這些基準旨在評估代理在電腦上執行任務的能力。該公司聲稱其模型在所有測試中都超越了 Computer Use 和 Mariner。
例如,在 OSWorld 測試中,這個測試評估代理執行合併 PDF 檔案或操作圖像等任務的表現,CUA 得分 38.1%,而 Computer Use 得分 22.0%。相比之下,人類的得分為 72.4%。在一個名為 WebVoyager 的基準測試中,測試代理在瀏覽器中執行任務的表現,CUA 得分 87%,Mariner 得分 83.5%,而 Computer Use 得分 56%。(Mariner 只能在瀏覽器中執行任務,因此在 OSWorld 上無法得分。)
目前,Operator 也只能在瀏覽器中執行任務。OpenAI 計劃未來透過 API 提供 CUA 更廣泛的能力,讓其他開發者可以用來建立自己的應用程式。這也是 Anthropic 在十二月釋出 Computer Use 的方式。
OpenAI 表示,已經測試了 CUA 的安全性,使用紅隊來探索當用戶要求它執行不可接受的任務(例如研究如何製作生物武器)、當網站包含隱藏指令來干擾它,以及當模型本身出現故障時會發生什麼。「我們已經訓練模型在執行任何可能有外部影響的動作之前,先停下來詢問用戶的資訊。」團隊中的另一位研究員朱凱西(Casey Chu)說。
看!沒有雙手
使用 Operator 時,你只需在文字框中輸入指令。但 Operator 不會在你的電腦上打開瀏覽器,而是將你的指令發送到運行在 OpenAI 伺服器上的遠端瀏覽器。OpenAI 聲稱這樣使系統更有效率。這是 Operator、Computer Use 和 Mariner(在你自己的電腦上運行的 Google Chrome 瀏覽器內)之間的另一個關鍵區別。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!