每個人都在談論Manus。我們對它進行了測試。

自從上週推出的通用人工智慧代理人 Manus 迅速在網路上傳播開來，不僅在中國，這個由位於武漢的創業公司 Butterfly Effect 開發的產品，已經進入了全球的討論中。許多科技界的影響力人物，包括 Twitter 的共同創辦人 Jack Dorsey 和 Hugging Face 的產品負責人 Victor Mustar，都對它的表現表示讚賞。有些人甚至稱它為「第二個 DeepSeek」，將它與早期因意外能力而震驚業界的 AI 模型相提並論。

Manus 自稱是世界上第一個通用人工智慧代理人，利用多個 AI 模型（例如 Anthropic 的 Claude 3.5 Sonnet 和經過微調的阿里巴巴開源的 Qwen）以及各種獨立運作的代理人，能夠自主執行各種任務。（這使它與基於單一大型語言模型的 AI 聊天機器人不同，包括 DeepSeek，後者主要設計用於對話互動。）

儘管受到廣泛關注，但實際上很少有人有機會使用它。目前，等待名單上的用戶中，獲得邀請碼的人不到 1%。（目前不清楚這個名單上有多少人，但從 Manus 的 Discord 頻道有超過 186,000 名成員來看，顯示出相當大的興趣。）

麻省理工科技評論（MIT Technology Review）獲得了 Manus 的使用權，當我進行測試時，發現使用它的感覺就像與一位非常聰明且高效的實習生合作：雖然它偶爾會對所要求的任務缺乏理解、做出錯誤的假設或為了加快速度而省略某些步驟，但它能清楚地解釋其推理過程，適應性極強，並且在提供詳細指示或反饋後能顯著改善。總的來說，它很有潛力，但並不完美。

就像它母公司之前推出的 AI 助手 Monica（於 2023 年發布）一樣，Manus 的設計是為了全球用戶。預設語言為英語，界面簡潔而極簡。

要進入系統，用戶需要輸入有效的邀請碼。然後系統會將用戶引導到一個登陸頁面，這個頁面與 ChatGPT 或 DeepSeek 的頁面非常相似，左側顯示之前的會話，中央有聊天輸入框。登陸頁面還展示了公司精心策劃的示範任務，範圍從商業策略開發到互動學習，再到定制的音頻冥想課程。

像其他基於推理的代理 AI 工具（例如 ChatGPT DeepResearch）一樣，Manus 能夠將任務分解為步驟，並自主瀏覽網路以獲取完成任務所需的信息。它的特點是「Manus 的電腦」窗口，這不僅允許用戶觀察代理正在做什麼，還可以隨時介入。

為了測試它，我給了 Manus 三個任務：（1）編制一份報導中國科技的知名記者名單，（2）搜尋紐約市的兩房物業列表，以及（3）提名 35 歲以下創新者（Innovators Under 35）名單的潛在候選人，這是麻省理工科技評論每年都會製作的名單。

以下是它的表現：

任務 1：Manus 給我的第一份記者名單僅包含五個名字，下面還有五個「榮譽提名」。我注意到它列出了一些記者的著名作品，但對其他人卻沒有。我問 Manus 為什麼。它給出的理由非常簡單：它變得懶惰。它告訴我，「部分原因是因為時間限制，我試圖加快研究過程。」當我堅持要求一致性和徹底性時，Manus 最終提供了一份包含 30 位記者的全面名單，並註明了他們目前的工作單位和著名作品。（我很高興看到我也在名單上，還有許多我喜愛的同行。）

我對能夠提出高層次的修改建議感到印象深刻，就像與一位真正的實習生或助手合作一樣，並且它能夠適當地回應。雖然它最初忽略了一些記者的雇主狀態變化，但當我要求它重新檢查某些結果時，它迅速修正了。另一個不錯的功能是：輸出可以作為 Word 或 Excel 文件下載，方便編輯或與他人分享。

不過，Manus 在訪問記者的新聞文章時遇到了一些麻煩，經常遇到驗證碼阻擋。由於我能夠逐步跟隨，因此我可以輕鬆接手完成這些任務，但許多媒體網站仍然阻止了這個工具，聲稱存在可疑活動。我看到這裡有很大的改進潛力——如果未來版本的 Manus 能夠在遇到這類限制時主動尋求幫助，那將會很有用。

任務 2：對於公寓搜索，我給了 Manus 一組複雜的標準，包括預算和幾個參數：寬敞的廚房、戶外空間、方便進入曼哈頓市中心，以及距離主要火車站七分鐘步行距離。Manus 最初對「某種戶外空間」這樣模糊的要求解讀得過於字面，完全排除了沒有私人露台或陽台的物業。然而，在更多的指導和澄清後，它能夠編制出更廣泛且更有幫助的名單，並以層級和整齊的項目符號給出建議。

最終的輸出感覺就像來自 Wirecutter，包含了「最佳整體」、「最佳價值」和「奢華選擇」等標題。這個任務（包括來回的交流）花了不到半小時——比編制記者名單（花了一個多小時）要少得多，這可能是因為物業列表在網上更容易獲取且結構良好。

任務 3：這是範圍最大的一個：我要求 Manus 提名 50 位今年的 35 歲以下創新者。製作這份名單是一項龐大的工作，我們每年通常會收到數百個提名。因此，我很好奇 Manus 能做到多好。它將任務分解為幾個步驟，包括回顧過去的名單以了解選擇標準、制定尋找候選人的策略、編制名字，並確保來自世界各地的候選人多樣性。

制定搜索策略是 Manus 最耗時的部分。雖然它沒有明確說明其方法，但 Manus 的電腦窗口顯示，這個代理迅速瀏覽著知名研究大學的網站、科技獎項的公告和新聞文章。然而，它在嘗試訪問學術論文和付費媒體內容時再次遇到障礙。

經過三小時的網路搜尋——在此期間 Manus（可以理解地）多次問我是否能縮小搜索範圍——它僅能提供三位完整背景資料的候選人。當我再次要求它提供完整的 50 名候選人名單時，它最終生成了一份，但某些學術機構和領域的代表性過高，反映出研究過程的不完整。在我指出這個問題並要求它找到五位來自中國的候選人後，它成功編制了一份不錯的五人名單，但結果偏向於中國媒體的寵兒。最終，當系統警告我如果繼續輸入過多文字，Manus 的表現可能會下降時，我不得不放棄。

我的評估：總的來說，我發現 Manus 是一個非常直觀的工具，適合有或沒有編程背景的用戶。在三個任務中，它提供的結果在兩個任務上優於 ChatGPT DeepResearch，儘管完成這些任務的時間明顯更長。Manus 最適合需要在公開網路上進行廣泛研究但範圍有限的分析任務。換句話說，它最適合處理那些熟練的人類實習生在一天工作中能完成的事情。

不過，並不是一切都很順利。Manus 可能會經常崩潰和系統不穩定，當要求處理大量文本時可能會遇到困難。當我嘗試開始新的請求時，屏幕上幾次出現「由於當前服務負載過高，無法創建任務。請幾分鐘後再試」的消息，偶爾 Manus 的電腦在某個頁面上凍結了很長時間。

它的失敗率高於 ChatGPT DeepResearch——這是一個 Manus 的首席科學家 Peak Ji 正在解決的問題。儘管如此，中國媒體 36Kr 報導，Manus 每個任務的成本約為 2 美元，這僅是 DeepResearch 成本的十分之一。如果 Manus 團隊加強其伺服器基礎設施，我可以預見這個工具會成為個別用戶的首選，特別是白領專業人士、獨立開發者和小型團隊。

最後，我認為 Manus 的工作過程相對透明且具合作性是非常有價值的。它在過程中主動提出問題，並將關鍵指示保留為「知識」，以便未來使用，讓用戶擁有更容易自定義的代理體驗。每次會話也可以重播和分享，這一點非常好。

我預計會繼續在個人和專業生活中使用 Manus 處理各種任務。雖然我不確定將它與 DeepSeek 相提並論是否正確，但這進一步證明了中國的 AI 公司並不僅僅是跟隨西方同行的腳步。它們不僅在基礎模型上進行創新，而是以自己的方式積極塑造自主 AI 代理的採用。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！