自從上週推出的通用人工智慧代理人 Manus 迅速在網路上傳播開來,不僅在中國,這個由位於武漢的創業公司 Butterfly Effect 開發的產品,已經進入了全球的討論中。許多科技界的影響力人物,包括 Twitter 的共同創辦人 Jack Dorsey 和 Hugging Face 的產品負責人 Victor Mustar,都對它的表現表示讚賞。有些人甚至稱它為「第二個 DeepSeek」,將它與早期因意外能力而震驚業界的 AI 模型相提並論。
Manus 自稱是世界上第一個通用人工智慧代理人,利用多個 AI 模型(例如 Anthropic 的 Claude 3.5 Sonnet 和經過微調的阿里巴巴開源的 Qwen)以及各種獨立運作的代理人,能夠自主執行各種任務。(這使它與基於單一大型語言模型的 AI 聊天機器人不同,包括 DeepSeek,後者主要設計用於對話互動。)
儘管受到廣泛關注,但實際上很少有人有機會使用它。目前,等待名單上的用戶中,獲得邀請碼的人不到 1%。(目前不清楚這個名單上有多少人,但從 Manus 的 Discord 頻道有超過 186,000 名成員來看,顯示出相當大的興趣。)
麻省理工科技評論(MIT Technology Review)獲得了 Manus 的使用權,當我進行測試時,發現使用它的感覺就像與一位非常聰明且高效的實習生合作:雖然它偶爾會對所要求的任務缺乏理解、做出錯誤的假設或為了加快速度而省略某些步驟,但它能清楚地解釋其推理過程,適應性極強,並且在提供詳細指示或反饋後能顯著改善。總的來說,它很有潛力,但並不完美。
就像它母公司之前推出的 AI 助手 Monica(於 2023 年發布)一樣,Manus 的設計是為了全球用戶。預設語言為英語,界面簡潔而極簡。
要進入系統,用戶需要輸入有效的邀請碼。然後系統會將用戶引導到一個登陸頁面,這個頁面與 ChatGPT 或 DeepSeek 的頁面非常相似,左側顯示之前的會話,中央有聊天輸入框。登陸頁面還展示了公司精心策劃的示範任務,範圍從商業策略開發到互動學習,再到定制的音頻冥想課程。
像其他基於推理的代理 AI 工具(例如 ChatGPT DeepResearch)一樣,Manus 能夠將任務分解為步驟,並自主瀏覽網路以獲取完成任務所需的信息。它的特點是「Manus 的電腦」窗口,這不僅允許用戶觀察代理正在做什麼,還可以隨時介入。
為了測試它,我給了 Manus 三個任務:(1)編制一份報導中國科技的知名記者名單,(2)搜尋紐約市的兩房物業列表,以及(3)提名 35 歲以下創新者(Innovators Under 35)名單的潛在候選人,這是麻省理工科技評論每年都會製作的名單。
以下是它的表現:
任務 1:Manus 給我的第一份記者名單僅包含五個名字,下面還有五個「榮譽提名」。我注意到它列出了一些記者的著名作品,但對其他人卻沒有。我問 Manus 為什麼。它給出的理由非常簡單:它變得懶惰。它告訴我,「部分原因是因為時間限制,我試圖加快研究過程。」當我堅持要求一致性和徹底性時,Manus 最終提供了一份包含 30 位記者的全面名單,並註明了他們目前的工作單位和著名作品。(我很高興看到我也在名單上,還有許多我喜愛的同行。)
我對能夠提出高層次的修改建議感到印象深刻,就像與一位真正的實習生或助手合作一樣,並且它能夠適當地回應。雖然它最初忽略了一些記者的雇主狀態變化,但當我要求它重新檢查某些結果時,它迅速修正了。另一個不錯的功能是:輸出可以作為 Word 或 Excel 文件下載,方便編輯或與他人分享。
不過,Manus 在訪問記者的新聞文章時遇到了一些麻煩,經常遇到驗證碼阻擋。由於我能夠逐步跟隨,因此我可以輕鬆接手完成這些任務,但許多媒體網站仍然阻止了這個工具,聲稱存在可疑活動。我看到這裡有很大的改進潛力——如果未來版本的 Manus 能夠在遇到這類限制時主動尋求幫助,那將會很有用。
任務 2:對於公寓搜索,我給了 Manus 一組複雜的標準,包括預算和幾個參數:寬敞的廚房、戶外空間、方便進入曼哈頓市中心,以及距離主要火車站七分鐘步行距離。Manus 最初對「某種戶外空間」這樣模糊的要求解讀得過於字面,完全排除了沒有私人露台或陽台的物業。然而,在更多的指導和澄清後,它能夠編制出更廣泛且更有幫助的名單,並以層級和整齊的項目符號給出建議。
最終的輸出感覺就像來自 Wirecutter,包含了「最佳整體」、「最佳價值」和「奢華選擇」等標題。這個任務(包括來回的交流)花了不到半小時——比編制記者名單(花了一個多小時)要少得多,這可能是因為物業列表在網上更容易獲取且結構良好。
任務 3:這是範圍最大的一個:我要求 Manus 提名 50 位今年的 35 歲以下創新者。製作這份名單是一項龐大的工作,我們每年通常會收到數百個提名。因此,我很好奇 Manus 能做到多好。它將任務分解為幾個步驟,包括回顧過去的名單以了解選擇標準、制定尋找候選人的策略、編制名字,並確保來自世界各地的候選人多樣性。
制定搜索策略是 Manus 最耗時的部分。雖然它沒有明確說明其方法,但 Manus 的電腦窗口顯示,這個代理迅速瀏覽著知名研究大學的網站、科技獎項的公告和新聞文章。然而,它在嘗試訪問學術論文和付費媒體內容時再次遇到障礙。
經過三小時的網路搜尋——在此期間 Manus(可以理解地)多次問我是否能縮小搜索範圍——它僅能提供三位完整背景資料的候選人。當我再次要求它提供完整的 50 名候選人名單時,它最終生成了一份,但某些學術機構和領域的代表性過高,反映出研究過程的不完整。在我指出這個問題並要求它找到五位來自中國的候選人後,它成功編制了一份不錯的五人名單,但結果偏向於中國媒體的寵兒。最終,當系統警告我如果繼續輸入過多文字,Manus 的表現可能會下降時,我不得不放棄。
我的評估:總的來說,我發現 Manus 是一個非常直觀的工具,適合有或沒有編程背景的用戶。在三個任務中,它提供的結果在兩個任務上優於 ChatGPT DeepResearch,儘管完成這些任務的時間明顯更長。Manus 最適合需要在公開網路上進行廣泛研究但範圍有限的分析任務。換句話說,它最適合處理那些熟練的人類實習生在一天工作中能完成的事情。
不過,並不是一切都很順利。Manus 可能會經常崩潰和系統不穩定,當要求處理大量文本時可能會遇到困難。當我嘗試開始新的請求時,屏幕上幾次出現「由於當前服務負載過高,無法創建任務。請幾分鐘後再試」的消息,偶爾 Manus 的電腦在某個頁面上凍結了很長時間。
它的失敗率高於 ChatGPT DeepResearch——這是一個 Manus 的首席科學家 Peak Ji 正在解決的問題。儘管如此,中國媒體 36Kr 報導,Manus 每個任務的成本約為 2 美元,這僅是 DeepResearch 成本的十分之一。如果 Manus 團隊加強其伺服器基礎設施,我可以預見這個工具會成為個別用戶的首選,特別是白領專業人士、獨立開發者和小型團隊。
最後,我認為 Manus 的工作過程相對透明且具合作性是非常有價值的。它在過程中主動提出問題,並將關鍵指示保留為「知識」,以便未來使用,讓用戶擁有更容易自定義的代理體驗。每次會話也可以重播和分享,這一點非常好。
我預計會繼續在個人和專業生活中使用 Manus 處理各種任務。雖然我不確定將它與 DeepSeek 相提並論是否正確,但這進一步證明了中國的 AI 公司並不僅僅是跟隨西方同行的腳步。它們不僅在基礎模型上進行創新,而是以自己的方式積極塑造自主 AI 代理的採用。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!