OpenAI推出Operator—一個可以為您操作電腦的代理人

像是 Anthropic 的 Computer Use 和 Google DeepMind 的 Mariner，Operator 會截取電腦螢幕的畫面，並掃描像素來判斷可以執行哪些動作。CUA 是其背後的模型，經過訓練可以與人們在網路上使用的圖形介面互動，例如按鈕、文字框和選單。它會掃描螢幕，執行一個動作，再次掃描螢幕，然後執行另一個動作，如此反覆。這樣一來，這個模型就能在大多數網站上執行人類可以使用的任務。

OpenAI 的科學家中野零一（Reiichiro Nakano）表示：「傳統上，模型使用軟體的方式是透過專門的 API。」（API，即應用程式介面，是一段程式碼，像是連接器，讓不同的軟體可以互相連接。）他說，這使得很多應用程式和大多數網站無法使用：「但如果你創建一個可以使用人類日常使用的介面的模型，就能開啟一整個之前無法接觸的軟體範圍。」

CUA 還會將任務分解成更小的步驟，並嘗試逐一解決，當遇到困難時會回溯。OpenAI 表示，CUA 的訓練技術與其所謂的推理模型 o1 和 o3 類似。

Operator 可以被指示搜尋優質野餐桌的優勝美地露營地。

OPENAI

OpenAI 已經測試 CUA 在多個行業基準上，這些基準旨在評估代理在電腦上執行任務的能力。該公司聲稱其模型在所有測試中都超越了 Computer Use 和 Mariner。

例如，在 OSWorld 測試中，這個測試評估代理執行合併 PDF 檔案或操作圖像等任務的表現，CUA 得分 38.1%，而 Computer Use 得分 22.0%。相比之下，人類的得分為 72.4%。在一個名為 WebVoyager 的基準測試中，測試代理在瀏覽器中執行任務的表現，CUA 得分 87%，Mariner 得分 83.5%，而 Computer Use 得分 56%。(Mariner 只能在瀏覽器中執行任務，因此在 OSWorld 上無法得分。)

目前，Operator 也只能在瀏覽器中執行任務。OpenAI 計劃未來透過 API 提供 CUA 更廣泛的能力，讓其他開發者可以用來建立自己的應用程式。這也是 Anthropic 在十二月釋出 Computer Use 的方式。

OpenAI 表示，已經測試了 CUA 的安全性，使用紅隊來探索當用戶要求它執行不可接受的任務（例如研究如何製作生物武器）、當網站包含隱藏指令來干擾它，以及當模型本身出現故障時會發生什麼。「我們已經訓練模型在執行任何可能有外部影響的動作之前，先停下來詢問用戶的資訊。」團隊中的另一位研究員朱凱西（Casey Chu）說。

看！沒有雙手

使用 Operator 時，你只需在文字框中輸入指令。但 Operator 不會在你的電腦上打開瀏覽器，而是將你的指令發送到運行在 OpenAI 伺服器上的遠端瀏覽器。OpenAI 聲稱這樣使系統更有效率。這是 Operator、Computer Use 和 Mariner（在你自己的電腦上運行的 Google Chrome 瀏覽器內）之間的另一個關鍵區別。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: OpenAI推出Operator一個可以為您操作電腦的代理人