炒到10萬,一夜爆火的Manus卻不好用
來源:倍可親(backchina.com)近日,自稱「全球第一款通用AI Agent產品」的Manus一夜之間爆火。
其宣稱性能「吊打」Open AI同款,邀請碼被炒至天價,甚至能賣到9萬、10萬元一個。
Manus火得突如其來,但不算莫名其妙。
火的原因有兩點,一是多家造勢,風很大,但實測的人少,神秘感強,疊加「本土團隊」光環,又是一個後來居上的案例;二是大模型的好,大家都見識了,但一直停留在聊天上。現在急需趁手的聚合式工具,把腦子裡的想法變變現。
忽然,說曹操曹操就到,正中下懷。
聚合式工具也沒那麼玄妙,相當於「高德打車」吧。
Manus是什麼?行內叫智能體(Agent),通俗點可以叫「工具人」。這個工具人就是以大模型為「大腦」,自己「動手」使用工具來完成任務。Manus英文就是「手」的意思。
有代表性的工具人當屬OpenAI的深度研究(Deep Research)和Anthropic的計算機應用(Computer Use)。以實測結果來看,Manus達不到宣傳片里的效果:幻覺較多,任務基本以失敗告終。
在二手平台上,Manus邀請碼最貴已被炒至10萬元級別
產品官網顯示,在GAIA基準測試(評估通用AI助手解決真實世界問題的能力)中,Manus在所有三個難度級別上,都取得了新的最先進(SOTA)表現關鍵,是不是「工具人」,要看它是不是真的能自行決定怎麼完成任務、挑什麼工具,而不是靠編好的代碼。
Manus目前未有任何信息能證明自己是真正的智能體——沒有人為設計的工作流程。因此,只能說它在宣傳里呈現出「智能體」或通用人工智慧(AGI)的樣子,並圍繞這一概念作文章。
而Manus也絕非一無是處。作為一款應用,界面簡潔友好;大腦(思考)、手(操作)、交付的層次非常清晰,組合起來也是相對合格的當代「牛馬」,還是能幫你提高一點生產力。
下文將舉例說明Manus如何完成工作任務、優勢和局限以及技術邏輯是什麼。省流版:別花好幾萬買什麼邀請碼,一個「毛坯房」不值得。
使用工具是大學問
「工具人」絕不能純聊天,不幹活兒,專業工具人都是一邊聊一邊干:左面對話框,右面操作台。Manus和Claude的界面都是如此。
根據「我有一個朋友」的實測,給Manus由淺入深地提了幾個獨立的要求,比如寫小說,給蘋果股價建模,寫一個遊戲等等,結果不太樂觀。
整個流程是這樣的:用戶在對話框里發布指令,Manus在操作台一頓輸出,用戶可以清晰地看到Manus使用工具的過程,並接收它的操作結果。
Manus的操作流程展示
收到指令后,Manus是這樣使用工具的:
首先,建立一個總文件夾寫明「大目標」,再建立多個清單式的子文件夾,將任務分解,最後逐一完成子文件夾的「小目標」。完成小目標時,它可能在瀏覽器一通搜索,也可能寫一段代碼。
也就是說,Manus主要工具就三種,瀏覽器工具(Agent),計算機語言Python和一部分命令行。
其次,利用超文本標記語言HTML來輸出「結果」。
也就是說,Manus用網頁呈現所有的結果。
有人問,它不是做了10頁PPT給我了嗎?這也是Manus「聰明」的地方,其實它沒有PPT工具,為了你的PPT,它用前端工具寫了一大堆頁面,通過命令行把前端頁面打包成一個壓縮包,下載下來是一堆前端網站,每個前端網站就是一頁PPT——雖然甲方很過分,但乙方還是出色地完成了任務。
兩個缺陷讓Manus不好用
在具體測試Manus的過程中,有兩個問題明顯暴露。
一是瀏覽器工具的局限。
遇到反爬蟲網站或需要人機驗證的網站,它根本無法讀取數據。比如,你想要在多個購物網站比價一款手機,進不去的網站它只能作罷,最後給出的是在搜索頁標題里找出來的價格的比較。總之,它給出的結果非常粗糙,根本達不到你想要的結果。
這也是瀏覽器工具的通病。Open AI給出過統計數據,其瀏覽器Agent在數據集上只能完成58.1%的任務,而人類能完成78.2%,差距是巨大的。
但是,Open AI的瀏覽器工具能力還是不差的,能幫人訂餐廳,買機票。而Manus的瀏覽器工具只能打開頁面,下滑,極少數時候點進某個網頁。因此,Manus應該沒有訓練自己的瀏覽器Agent,僅能做一些初步的簡單工作。
Manus官方展示的買房案例
而且,Manus選擇工具也有局限。它有時非常豪爽地用Next.js寫代碼,這是一個全棧項目,前後端都能用的那種。但是Manus又沒有部署後端的能力,各種報錯之後陷入「深深的思索」。
二是幻覺嚴重。
比如給蘋果公司做財務估值,Manus這次沒有利用瀏覽器搜索,而是寫了一個Python腳本,在腳本里調用「雅虎金融」的介面來讀取公司相關數據。
然而,在實際過程中,它並沒有提供真實數據,而是撰寫了一堆模擬數據——也就是自己編的數據。反查它的操作流程,確實沒有調用過任何API,也沒有任何搜索過程,幻覺是比較嚴重的。
它最後給出的報告,當然也是完全不能用的。
Manus可以打開Python進行分析,並生成HTML網頁文件
在處理任務時,Manus普遍將大模型和Python腳本混在一起操作,上下文極長,更容易產生錯誤。用戶如果不留心或缺乏分辨能力,也更容易被「矇騙」。
模型即產品
Manus AI創始人肖弘在接受採訪時,提到了理解智能體的核心:虛擬機。
其實,智能體應該是一個「DeepSeek」+「我」的東西。這裡的「我」是執行角色。
在沒有智能體之前,我布置任務,大模型思考目標、分解步驟,「我」來執行並拿到結果。有了智能體之後,我布置任務,智能體直接給我結果。
就像我需要10頁PPT,DeepSeek給我寫好每一頁內容,「我」複製到PPT里。現在,我需要10頁PPT,智能體就給了我10頁PPT。
Manus團隊北京辦公園區入口 新京報記者 浦峰/攝
本來需要我使用電腦(做PPT),現在是大模型在使用我的電腦(做PPT)。
這就是智能體的本質。
如果用的是軟體搭出來的硬體系統,那麼這個智能體就是大模型+虛擬機。
如果直接調用現實中的電腦,那麼這個智能體就是大模型+計算機。一年前Claude就能拿用戶的電腦做網頁了。
這是因為現在大模型還較難真正接入物理世界,只能在「真假」計算機上下功夫。如果萬物互聯,「大模型+鍋碗瓢盆」可能直接把餐飲業干倒閉了,當然倒閉的肯定也不只一個行業了。這是后話。
智能體的背後,是「模型即產品」的思路。
正如Open AI的深度研究,Anthropic的計算機應用,都不再套用自家的通用模型,而是根據應用場景,訓練全新的強化模型,這個強化模型本身就是一個好用的產品。
反過來看Manus,當然是沒有自家的大模型,也缺乏專門訓練的相關工具,但是聚合的思路和表現形式很成功,也將大模型「純文本工作」——寫代碼、寫文字的優勢,通過網頁交付清晰地展示了出來。
在訓練模型的邏輯上,Manus可能也並沒有實現Claude人、大模型、環境三者即時反饋的簡潔模式,而依然遵循之前人、大模型、任務分解、工具使用、進程演化、目標達成等複雜結構。
Manus AI合伙人張濤在社交平台回應稱,「目前採取邀請碼機制,是因為此刻伺服器容量確實有限」
在DeepSeek非常成功的今天,發展智能體是順應了形勢的需要、大眾的需求。各家AI公司都希望抓住這個機會來發力。搶佔流量也是發力的一部分。
對於普通消費者而言,最重要的還是多觀察,多了解,別急著掏錢。人工智慧不會毀滅你的生活,但是焦慮會。
