久久久久久精品免费看,欧美《交换做爰》,最美情侣免费视频

文｜硅谷101

進(jìn)入2025年以來， AI Agent的發(fā)展明顯提速。5月6日，OpenAI宣布以30億美元收購 Windsurf；編程工具Cursor的母公司Anysphere也獲得了9億美元的融資，估值高達(dá)90億美元；號稱中國第一個(gè)通用AI Agent的Manus在五月也獲得了硅谷老牌風(fēng)險(xiǎn)投資公司Benchmark領(lǐng)投的7500萬美元的融資；OpenAI在一月推出了具備自主使用瀏覽器能力的Operator，并在二月發(fā)布了專注于復(fù)雜任務(wù)處理的Deep Research，這兩個(gè)產(chǎn)品上線后迅速獲得關(guān)注，如今已有不少用戶成為其深度使用者。

這期文章我們就來聊聊：究竟是哪些關(guān)鍵能力，支撐了Agent的技術(shù)躍遷？哪一類Agent最有可能成為未來的通用Agent？而普通創(chuàng)業(yè)者目前在Agent賽道還有哪些機(jī)會？

我們邀請了MindVerse心識宇宙的創(chuàng)始人陶芳波以及AI產(chǎn)品經(jīng)理Kolento Hou，一起聊一聊AI Agent的核心技術(shù)、熱門產(chǎn)品使用體驗(yàn)、創(chuàng)業(yè)機(jī)會與挑戰(zhàn)，以及AI Agent的未來將走向何方？

以下是這次對話內(nèi)容的精選:

01 RTF推動的Agent熱潮

泓君：首先請兩位嘉賓來分享下自己最近使用Agent的頻率是怎樣的？自己造了多少個(gè)Agent？

Kolento：我?guī)缀趺刻於荚谟貌煌腁gent。因?yàn)槲易约簳_發(fā)一些產(chǎn)品，所以會用到Replit這類IDE（集成開發(fā)環(huán)境） Agent，以及Cursor這類編程Agent。平時(shí)我也研究很多“Agent builder”平臺，比如微軟的Copilot Studio，字節(jié)的Coze等，它們可以幫助用戶搭建屬于自己的Agent。我現(xiàn)在大概做了200多個(gè)AI Agent，基本上遇到了一個(gè)場景就會去試一試。我感覺時(shí)代變了，現(xiàn)在開發(fā)一個(gè)產(chǎn)品的成本變得越來越低，甚至有點(diǎn)恐怖了。

陶芳波：我也是每天都在用各種Agent，尤其是編程Agent。雖然我沒有像Kolento那樣做過那么多Agent，但我在做“造Agent的平臺”。最早我們做過一個(gè)平臺叫MindOS，用來構(gòu)建具備通用能力的專業(yè)型AI Agent。現(xiàn)在我們在做一個(gè)新的開源平臺叫Second Me（第二自我），也是前段時(shí)間剛剛發(fā)布。用戶可以下載到本地，創(chuàng)造出代表自己的Agent。我覺得Agent時(shí)代真的來了，底層基礎(chǔ)設(shè)施也都在慢慢成熟，組合起來之后，我們馬上就會見到一個(gè)新的世界了。

泓君：你覺得什么是Agent？

陶芳波：從機(jī)器學(xué)習(xí)的視角來看，我所理解的Agent，與如今大眾語境中的Agent存在一定差別。在我過往的學(xué)習(xí)和研究中，最早接觸到的Agent概念來自強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)框架下，Agent能夠基于環(huán)境反饋，不斷自主學(xué)習(xí)并優(yōu)化其行動策略，從而實(shí)現(xiàn)特定目標(biāo)。以AlphaGo為例，它就是強(qiáng)化學(xué)習(xí)語境中一個(gè)經(jīng)典的Agent。

然而，隨著大語言模型的興起，Agent這個(gè)詞的含義也在大眾語境中發(fā)生了泛化。如今我們對于Agent的定義，通常具備幾個(gè)特征：首先，它能夠像人一樣獨(dú)立完成某些任務(wù)；其次，它通常由大語言模型，或具備一定思考能力的推理模型所驅(qū)動；第三，它有自己的記憶體系；第四，它具備與用戶交互的界面。

例如Windsurf和Devin，都可以被視為典型的編程類Agent，也都有各自的交互界面。它們之間的主要區(qū)別在于目標(biāo)用戶和交互方式：有的是嵌入在編程環(huán)境中的，面向開發(fā)者；有的則面向管理者或非技術(shù)用戶，能夠自動完成網(wǎng)絡(luò)搜索、測試等任務(wù)。

過去這三個(gè)月，我觀察到一個(gè)非常有趣的融合趨勢。傳統(tǒng)的強(qiáng)化學(xué)習(xí)Agent有兩個(gè)核心特征：其一是以強(qiáng)化學(xué)習(xí)為主的技術(shù)路徑；其二是具備在環(huán)境中學(xué)習(xí)的能力。而大語言模型背景下的Agent則大多不具備學(xué)習(xí)能力，它們對于行業(yè)與任務(wù)的認(rèn)知，依賴人類工程師的配置，例如設(shè)定知識庫或工作流。

但現(xiàn)在，隨著reasoning model（推理模型）的興起，以及RFT（Reinforcement Fine-Tuning，強(qiáng)化學(xué)習(xí)微調(diào)）技術(shù)的應(yīng)用，越來越多基于大語言模型的Agent也可以在法律或電腦操作等特定領(lǐng)域中自主學(xué)習(xí)和探索。這是Agent發(fā)展中定義層面的升級。它結(jié)合了傳統(tǒng)強(qiáng)化學(xué)習(xí)中Agent的自主學(xué)習(xí)、自主探索的能力，以及通用Agent在任務(wù)執(zhí)行、用戶交互和復(fù)雜問題解決中的綜合能力。因此，自2025年初以來，業(yè)內(nèi)對于Agent的發(fā)展非常興奮。

早在2023、2024年，Agent概念就已經(jīng)出現(xiàn)，我們當(dāng)時(shí)也做過如MindOS這類的平臺，但那時(shí)的Agent更像是腳手架。而現(xiàn)在，Agent真的具有智能，尤其是通過強(qiáng)化學(xué)習(xí)、思考能力的注入，達(dá)到了我們想要的技術(shù)范式的狀態(tài)。

泓君：你認(rèn)為2025年的Agent和之前相比，最本質(zhì)的區(qū)別是什么？你提到的最早的強(qiáng)化學(xué)習(xí)中的Agent，我的理解是，比如在一個(gè)游戲場景中，讓兩個(gè)小人推方塊，想辦法把自己圍起來，避免被外界攻擊。你會看到它們慢慢涌現(xiàn)出一些智能，甚至用我們?nèi)祟悰]想到的方法去完成任務(wù)。

我記得在2023、2024年時(shí)，大家基本還是在游戲環(huán)境中測試Agent的協(xié)作表現(xiàn)。而2025年的Agent，在強(qiáng)化學(xué)習(xí)和電腦操作結(jié)合之后，開始進(jìn)入更多領(lǐng)域。比如我讓語言模型幫我訂一張機(jī)票，我告訴它我所偏好的時(shí)間、地點(diǎn)、航班類型等等，如果它能順利完成一個(gè)完整流程，我就覺得是一個(gè)好的Agent。

陶芳波：你剛才打的兩個(gè)比方都非常好，你提到的Agent本質(zhì)上都還是帶有環(huán)境的。我說的變化，或者說讓大家興奮的地方，主要是底層能力的變化。

以前的大語言模型的訓(xùn)練存在很大的限制，無論是預(yù)訓(xùn)練還是后訓(xùn)練，包括RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強(qiáng)化學(xué)習(xí)）等人類對齊技術(shù)，其訓(xùn)練過程本身是脫離環(huán)境互動的，目標(biāo)只是優(yōu)化與人對話的表現(xiàn)。雖然我們可以把它作為大腦，強(qiáng)行給它接工具、加記憶，讓它在某種環(huán)境中完成任務(wù)，但由于訓(xùn)練過程本身沒有和環(huán)境互動，所以它的行為始終顯得很機(jī)械，無法真正適應(yīng)環(huán)境的變化。

你提到的小人在環(huán)境中博弈的例子，正是典型的、在環(huán)境中學(xué)習(xí)的傳統(tǒng)強(qiáng)化學(xué)習(xí)的Agent。而2023、2024年雖然Agent很火，但始終難以落地，問題就在于環(huán)境的缺失。

但現(xiàn)在，我們在技術(shù)上擁有了新的能力。比如DeepSeek R1的文章就指出，它最后的推理能力，不是靠死記硬背的知識庫訓(xùn)練出來的，而是通過模型在問題環(huán)境中自主學(xué)習(xí)實(shí)現(xiàn)的。AI像人一樣，在過程中自己思考、調(diào)整策略、探索解題路徑，最后掌握了解決數(shù)學(xué)題或編程題的方法。這種自主尋找解決路徑的過程，在以前的訓(xùn)練中是完全沒有的，所以我們可以稱之為這是大語言模型的“AlphaGo時(shí)刻”。大語言模型真的學(xué)會基于一個(gè)環(huán)境給出的獎勵來自主地找到解決方法了。

泓君：我了解目前市場上做編程類Agent的公司有幾十家，從最早直接使用大模型編程，到微軟的Copilot，再到Cursor和Devin，行業(yè)在不斷迭代。但為什么最終是Cursor和Devin跑了出來？它們比別人好在哪兒？是因?yàn)閷Νh(huán)境的理解更深入？還是因?yàn)樗鼈兤鸩礁纾瑩屨剂耸袌觯?/p>

陶芳波：我?guī)缀趺刻於紩肳indsurf，相比Cursor我覺得它更好用一點(diǎn)。你提的問題非常精準(zhǔn)，我認(rèn)為，Windsurf、Cursor甚至更進(jìn)一步的Devin，本質(zhì)上是對于環(huán)境的理解更到位。

舉幾個(gè)例子，比如Windsurf不僅是一個(gè)簡單的核對代碼的插件，它內(nèi)部還做了context engine（上下文引擎），所以它非常清楚自己所能操作的代碼空間，包括數(shù)據(jù)、測試、文件和配置的位置等。

再比如早期的Cursor，它雖然能寫代碼，但無法執(zhí)行命令行操作，也不能聯(lián)網(wǎng)搜索。而Windsurf在近期的版本中已經(jīng)不止是能寫代碼，還能執(zhí)行命令、操作文件，甚至檢索網(wǎng)絡(luò)技術(shù)文檔作為參考。把Copilot這類的編程工具的環(huán)境邊界擴(kuò)大了很多。

Devin的野心更大，它從一開始就打算去掉IDE（Integrated Development Environment，集成開發(fā)環(huán)境），不需要考慮IDE中環(huán)境的問題。Devin設(shè)計(jì)了一個(gè)包含四個(gè)子界面的窗口：瀏覽器、IDE、用戶交互區(qū)和測試環(huán)境。它所構(gòu)建的環(huán)境比IDE更大且更細(xì)致。

它還有一個(gè)筆記系統(tǒng)的功能，我覺得很有意思。因?yàn)樗胱孉I能完成一個(gè)完整的軟件工程閉環(huán)，這個(gè)過程可能非常長，而大模型無法理解過程的全部行為。所以就像人類在開發(fā)時(shí)會記筆記一樣，Devin也加入了一個(gè)筆記環(huán)境，類似于它的策略室、作戰(zhàn)室。當(dāng)模型有新的想法時(shí)就記錄下來，之后可能有一段時(shí)間它不再寫代碼或者做檢索，而是在修改筆記中的問題或者優(yōu)化筆記中的系統(tǒng)設(shè)計(jì)架構(gòu)。我覺得還是非常嚇人的，就像人為自己創(chuàng)造了一個(gè)思考環(huán)境，并且學(xué)會在其中迭代。我覺得這個(gè)功能也是非常有意思，也可以加入Agent的武器庫中。Devin不僅是做了這個(gè)功能，而且它們對于context、enviroment的理解也更好。因此它們在4.2萬億美金的全球軟件工程的大市場中能跑在前面。

泓君：你剛才提到一個(gè)觀點(diǎn)我覺得挺有意思的：現(xiàn)在如果要做AI Agent，環(huán)境已經(jīng)比數(shù)據(jù)更重要了。那是否意味著只要對某個(gè)方向有足夠深入的理解，幾乎任何人都可以構(gòu)建自己的AI Agent？它已經(jīng)從一種“高門檻”的大廠項(xiàng)目，變成了普通人也能參與的創(chuàng)業(yè)機(jī)會？

陶芳波：這件事情有兩面性。一方面，借助RFT的方式，可以顯著降低對大規(guī)模數(shù)據(jù)的依賴，從而減少資本和算力的投入。但另一方面，我對Agent創(chuàng)業(yè)的前景并沒有那么樂觀。如果每個(gè)人都能做Agent，且做的都是服務(wù)型Agent，在C端市場，真正還有多少空間留給新的Agent創(chuàng)業(yè)項(xiàng)目？

舉個(gè)例子，Deep Research上線之后，一些我們以前認(rèn)為需要單獨(dú)工具完成的任務(wù)，比如學(xué)術(shù)研究、市場調(diào)研，它幾乎都能覆蓋。而像Operator這樣的平臺，不僅能幫你訂餐、買菜、訂機(jī)票、做行程規(guī)劃，還可能覆蓋上百個(gè)場景，這些在過去或許代表著上百個(gè)不同的創(chuàng)業(yè)項(xiàng)目，現(xiàn)在卻可能被一個(gè)通用Agent整合完成。

大廠和大模型公司在一些足夠大的領(lǐng)域里占據(jù)位置。剩下的空間，只會是一些很小機(jī)會。相比移動互聯(lián)網(wǎng)時(shí)代，創(chuàng)業(yè)者在這個(gè)時(shí)代的機(jī)會會少很多。

泓君：所以這是一個(gè)更適合做小而美的時(shí)代，因?yàn)榇髾C(jī)會都會被巨頭吃掉。

陶芳波：對，而且現(xiàn)在做一款產(chǎn)品或者一個(gè)APP時(shí)，邊界比以前更容易擴(kuò)大。一旦被大廠占住的機(jī)會，往往能覆蓋用戶更多的需求和注意力。普通人在這個(gè)時(shí)代中還有哪些機(jī)會？我想到一個(gè)挺有意思的案例：在移動互聯(lián)網(wǎng)時(shí)代，微信推出了公眾號平臺，抖音推出了短視頻平臺。這些平臺級機(jī)會幾乎都被頭部公司牢牢占住了。但為什么仍有很多普通人在這個(gè)時(shí)代里賺到了錢？關(guān)鍵就在于，他們利用這些平臺做出了新的東西，在平臺中表達(dá)了自己的個(gè)體性，比如做自媒體網(wǎng)紅。

我還是認(rèn)為，如果我們只從“AI工具提升生產(chǎn)力”的角度來看，確實(shí)會有很多人原有的價(jià)值被剝奪。但我認(rèn)為當(dāng)AI形成網(wǎng)絡(luò)之后，可能會有一波新的個(gè)體機(jī)會被釋放出來。也許那時(shí)會有一波新的創(chuàng)業(yè)潮出現(xiàn)，比如，現(xiàn)在的網(wǎng)紅也可能會變成創(chuàng)業(yè)者，他做了一個(gè)表達(dá)他自己的個(gè)性的Agent，也會有獨(dú)特的市場。但如果目標(biāo)是做一個(gè)服務(wù)所有人的通用Agent，我覺得機(jī)會是很小的。

02 Agent爆火背后的密碼

泓君：剛才你提到了三種核心能力：模型能力、工程能力，以及數(shù)據(jù)壁壘的能力。你認(rèn)為未來在真實(shí)用戶的實(shí)驗(yàn)中，數(shù)據(jù)壁壘可能是最重要的核心競爭力。但我也聽到另一種聲音，比如Manus的創(chuàng)始人張濤就分享了他們產(chǎn)品引爆的關(guān)鍵節(jié)點(diǎn)，他認(rèn)為是和Claude Sonnet 3.7模型的發(fā)布高度同步。我也看了Cursor的創(chuàng)始人在Lex Fridman播客上的采訪，他也提到類似觀點(diǎn)：像Cursor這種自動寫代碼的AI Agent能火，最根本的原因還是大模型能力的提升。

為什么現(xiàn)在大家會覺得Copilot有些過時(shí)了？很大一部分原因也是它的產(chǎn)品升級沒能及時(shí)跟上模型的能力迭代。所以歸根結(jié)底，Agent的爆火，底層模型的提升仍然是決定性因素。

陶芳波：對，我完全同意。一方面，大模型能力的提升確實(shí)帶來了智力的提升，對任務(wù)的理解能力自然也就更強(qiáng)。但更重要的是，大家頻繁提到Sonnet，是因?yàn)樗粌H聰明，而且是第一個(gè)真正解決了代碼生成問題的模型。代碼是一種通用的行動空間，在數(shù)字世界中具有極高的操作性。Sonnet讓幾乎所有任務(wù)都可以通過代碼這個(gè)中間層，轉(zhuǎn)化成了像八爪魚一樣可以操作背后的數(shù)據(jù)與環(huán)境。這對整個(gè)Agent生態(tài)是質(zhì)的飛躍。

所以你提到的Cursor和Manus自然會非常看重這種模型能力的提升。但我也想強(qiáng)調(diào)一點(diǎn)，數(shù)據(jù)依然是一個(gè)不容忽視的問題。即便是在數(shù)字環(huán)境中，很多平臺的數(shù)據(jù)依舊存在壁壘，無法通過代碼層來訪問。比如說，如果你希望Agent去獲取某個(gè)人在Facebook上的信息，僅靠代碼就無法實(shí)現(xiàn)。

所以從今天這個(gè)時(shí)間點(diǎn)來看，凡是代碼層能接觸到的數(shù)據(jù)，Mannus這樣的通用Agent都可以納入進(jìn)來做很多事情。但依然還需要面對數(shù)據(jù)層的壁壘問題。

泓君：所以你覺得像Cursor、Windsurf這些AI編程Agent，反而可能是最有可能殺出來的那一類，未來甚至可能發(fā)展成應(yīng)用很廣的巨型通用AI Agent？

陶芳波：現(xiàn)在已經(jīng)能看到這樣的趨勢了。Cursor和Windsurf目前都開始接入一些自定義的MCP接口。雖然它們在表面上看起來是編程類Agent，但已經(jīng)可以接入Notion等不同平臺的MCP。它在編程在過程中也可以做類似Manus做的事，比如編輯Notion內(nèi)容。

Kolento：我一直認(rèn)為Manus對模型的依賴非常強(qiáng)。但我們希望建立的是一種更健康的機(jī)制：模型越強(qiáng)，Agent也越強(qiáng)，而不是模型越強(qiáng)，Agent反而被替代。之前GPT頻繁更新那段時(shí)間，很多YC的AI公司倒在了路上，原因就在于它們的構(gòu)建方式不對。

我覺得Manus也面臨類似的問題。它的任務(wù)理解、工具調(diào)用這類智能能力幾乎是完全托管給主流大模型的，比如Claude 3.7 Sonnet。這也是我猜它們?yōu)槭裁磿扇⊙埓a機(jī)制：因?yàn)檎{(diào)用成本高、性能不穩(wěn)定，比如模型升級、API波動、響應(yīng)延遲、輸出幻覺等，都會成為產(chǎn)品層面不易控制的變量。我本身是做產(chǎn)品經(jīng)理的，所以我一直在思考如何更好地從產(chǎn)品側(cè)解決這些問題。

姚順雨寫過一篇文章，他認(rèn)為強(qiáng)化學(xué)習(xí)有三個(gè)要素：算法、環(huán)境以及先驗(yàn)知識。他還提到一句我非常認(rèn)同的話：evaluation（評估）比training（訓(xùn)練）更重要。

在過去構(gòu)建AI產(chǎn)品的過程中，我過度聚焦在prompt工程以及挑選最新的大模型上。但我逐漸意識到，真正決定產(chǎn)品質(zhì)量的，是對系統(tǒng)效果的可衡量性的判斷機(jī)制，也就是evaluation。打個(gè)比方，prompt是武器，但evaluation是你的準(zhǔn)心。

因?yàn)橐粋€(gè)AI產(chǎn)品不可能靠一次成功的demo活下去，它需要持續(xù)迭代。而evaluation正是量化每次產(chǎn)品變更效果的唯一工具。

當(dāng)然，它和傳統(tǒng)的測試又不太一樣，更加靈活，也更偏向語義層面。目前市面上主要有三類方法：

1.Human Evaluation（人工評估）：優(yōu)點(diǎn)是與用戶偏好直接相關(guān)，具備人類的語義理解。但局限性也很明顯，反饋稀疏、不夠精準(zhǔn)、成本高。

2.Code-based Evaluation（基于代碼的評估）：優(yōu)點(diǎn)是快速、便宜，適合代碼生成類任務(wù)。但對語義復(fù)雜、交互豐富的應(yīng)用則不適用。

3.LLM-based Evaluation（大模型自評）：這是目前論文里最常提到的一種方向，讓模型不僅能生成，還能評估自己的輸出，具備高度自動化能力。

所以我認(rèn)為，未來要做出真正有競爭力的AI Agent，evaluation是必不可少的能力中心，從一開始就要建立起完整的evaluation框架。

以Manus為例，它其實(shí)已經(jīng)有多個(gè)模塊：意圖識別、工具調(diào)用、API調(diào)度、內(nèi)容生成等等。每一個(gè)模塊都應(yīng)該有獨(dú)立的evaluation邏輯。這不應(yīng)該是后期的附加測試，而是像DevOps（開發(fā)運(yùn)維一體化）一樣，AI Agent也應(yīng)該有自己的EvaluationOps，任何一次響應(yīng)、執(zhí)行、生成的過程都要通過評估機(jī)制。

我覺得之后的重點(diǎn)是，需要形成一套通用的evaluation模板庫，并能擴(kuò)展到新的任務(wù)類型上，類似Phoenix這樣的開源框架。比如摘要生成（summary）、RAG（Retrieval-augmented generation，檢索增強(qiáng)生成）、代碼生成（code generation）等。

陶芳波：我很同意Kolento這個(gè)說法，尤其是關(guān)于面向真實(shí)環(huán)境的evaluation。未來的AI產(chǎn)品，本質(zhì)上可能都會是Agent產(chǎn)品。而Agent產(chǎn)品首先要關(guān)注其所處的環(huán)境；在此基礎(chǔ)上，接下來的重點(diǎn)就是如何evaluate它在環(huán)境中的表現(xiàn)。

如果我們進(jìn)一步把evaluation提升為reward的概念，那就意味著這個(gè)反饋具備可重復(fù)生成的特性。當(dāng)Agent在環(huán)境中探索和優(yōu)化時(shí)，可以始終參考reward進(jìn)行對齊或?qū)W習(xí)。這是接下來設(shè)計(jì)Agent產(chǎn)品時(shí)更重要的思考路線。

泓君：evaluation是一個(gè)很重要的問題，也讓我聯(lián)想到另一個(gè)技術(shù)話題，就是RFT（Reinforcement Fine-Tuning，強(qiáng)化學(xué)習(xí)微調(diào)）和SFT（Supervised Fine-Tuning，監(jiān)督學(xué)習(xí)微調(diào)）這兩種方式的區(qū)別。OpenAI發(fā)布RFT之后，現(xiàn)在絕大部分AI Agent創(chuàng)業(yè)者都傾向于使用RFT，因?yàn)樾Ч谩?/p>

但我們也和一些更老牌的做Agent的創(chuàng)業(yè)者聊過，他們反而認(rèn)為SFT在成本上更具優(yōu)勢。雖然目前RFT在效果上可能比SFT好25%左右，但訓(xùn)練和運(yùn)行的成本可能是幾倍的差距。尤其是在用戶量大的情況下，這種成本差異就更為顯著.

您認(rèn)為我們是否真的需要為這25%的性能提升，付出成倍的成本？我聽說Manus內(nèi)部用的就是SFT技術(shù)。

陶芳波：關(guān)于SFT和RFT的選擇，確實(shí)可以看到技術(shù)圈正在逐步向RFT遷移。但就Manus來說，它們當(dāng)時(shí)沒有用RFT，原因之一是當(dāng)時(shí)RFT本身還沒有發(fā)布多久。更重要的是，RFT需要微調(diào)背后的思維鏈模型，但Sonnet本身是不允許微調(diào)的。所以Manus使用SFT，其實(shí)并不是用在模型的核心思維鏈模型，而是外圍執(zhí)行模模塊，比如Computer Use Model這一類組件。換句話說，它們調(diào)的是“手”，而不是“腦”。

03 垂類AI Agent推薦

泓君：在你目前使用過的這些Agent中，有沒有哪些在表達(dá)或交互上特別出色的？

Kolento：我覺得Replit非常出色，它在我需要澄清問題的時(shí)候，總是能及時(shí)引導(dǎo)我把需求講清楚。

我還想提另一個(gè)產(chǎn)品Fellou，可能算是Manus的潛在競爭對手，是謝揚(yáng)最近推出的一個(gè)Agent瀏覽器。它的交互方式很符合我的預(yù)期，在執(zhí)行任何任務(wù)之前，都會先通過更可

視化的方式和我進(jìn)行對齊，對齊完之后再自主運(yùn)行。

因?yàn)镕ellou是PC端應(yīng)用，所以它具備一定的系統(tǒng)級權(quán)限。每當(dāng)遇到高危操作，比如需要登錄或輸入密碼時(shí)，它會以系統(tǒng)彈窗的方式提醒我進(jìn)行確認(rèn)。而這正是Manus目前做得不太好的地方：它缺乏足夠的對齊，在高危操作上又無法獲取權(quán)限，經(jīng)常會直接卡住。白白消耗掉credits，任務(wù)也沒能完成。

所以我覺得像Fellou和Replit的設(shè)計(jì)理念更合理，在關(guān)鍵場景引入HITL（Human-in-the-loop，人機(jī)回圈）機(jī)制，與人類進(jìn)行對接。

泓君：在你們目前使用過的AI Agent中，如果從用戶體驗(yàn)和商業(yè)潛力兩個(gè)維度出發(fā)，有沒有哪些公司是你們特別看好的？

陶芳波：我個(gè)人認(rèn)為，現(xiàn)在市場上還沒有出現(xiàn)真正能覆蓋全人群、全通用場景的Agent產(chǎn)品，大家還在尋找不同的切入角度。

我比較看好Cursor、Windsurf這類編程Agent，它們是從技術(shù)人員的角度切入的。而這兩者中我更看好Cusor。目前來說，Cursor的市場滲透率更高，它畢竟是在Windsurf之前就做出了這種產(chǎn)品形態(tài)。我也更認(rèn)可Cursor團(tuán)隊(duì)在探索上的那種進(jìn)取心。當(dāng)然，Windsurf被OpenAI收購，也不排除未來會被賦予更強(qiáng)的戰(zhàn)略目標(biāo)，朝通用Agent方向發(fā)展。但相比之下，我覺得一個(gè)獨(dú)立團(tuán)隊(duì)所擁有的自由度會更大。

而且我覺得我們普遍低估了編程Agent作為未來通用型Agent的潛力。很多人對Cursor的印象還停留在“Web端編程工具”這個(gè)層面，覺得它就是個(gè)輔助編程工具。但隨著MCP這類底層基礎(chǔ)設(shè)施的逐步完善，Cursor正在積極地把自己從一個(gè)編程工具，變成一個(gè)可以連接多種應(yīng)用、場景和數(shù)據(jù)的平臺。

也許Cursor未來的界面都會分成兩種模式：一種仍以IDE為核心，目標(biāo)是代碼產(chǎn)出；另一種則把代碼作為手段，核心目標(biāo)轉(zhuǎn)向完成任務(wù)。這是很多美國公司常見的做法，先打好堅(jiān)實(shí)的底層架構(gòu)，再一層層往上構(gòu)建功能。所以我比較看好Cursor的發(fā)展路徑。

當(dāng)然Manus也還是有機(jī)會的。它是從辦公人群的日常場景切入，不只是做Deep Research，還具備不少文件處理等方面的能力。但我覺得從這個(gè)角度出發(fā)，也需要逐步拓展能力集。通用型Agent的建設(shè)，是一個(gè)需要長期積累的過程。

Kolento：我目前關(guān)注的AI Agent產(chǎn)品，大多都是非常垂直的場景類產(chǎn)品，雖然它們可能不為大眾所熟知，但在各自領(lǐng)域內(nèi)表現(xiàn)都非常突出，也很有前景。

比如Vantel，它專門為商業(yè)保險(xiǎn)經(jīng)紀(jì)人打造。保險(xiǎn)行業(yè)里，很多從業(yè)者80%的時(shí)間都花在重復(fù)性工作上，比如保單分析、手動錄入數(shù)據(jù)等。而Vantel專注于將這些流程自動化。它們自己宣稱，能每周幫一個(gè)經(jīng)紀(jì)人節(jié)省十個(gè)小時(shí)以上的時(shí)間。早期的demo就能在五分鐘內(nèi)幫用戶快速比對和分析一份幾百頁、包含大量條款的保單的。我看了它們的demo和很多用戶反饋，效果都很不錯(cuò)。

還有Sweet Spot，我從2023年開始就非常關(guān)注，一直都覺得這個(gè)項(xiàng)目非常有前途。它做的是AI for Granting，主要服務(wù)全球的SMB（中小企業(yè)）、NPO（非盈利組織）和NGO（非政府組織），幫助它們申請各類政府資助和聯(lián)邦補(bǔ)助金。除了分析合同之外，還能輔助用戶分析招投標(biāo)。它的用戶體驗(yàn)也做得很好，比如前期會自動幫你搜索相關(guān)合約信息，并提供深入解讀。而且它們的UI在2023年就已經(jīng)做得非常不錯(cuò)了。我記得每次它只給48小時(shí)免費(fèi)試用，因?yàn)樘糜昧耍瑸榇宋覔Q了八九個(gè)郵箱，最后還聯(lián)系了它們CEO，希望能開一個(gè)會員賬號。

泓君：我也用過一個(gè)非常垂類的Agent產(chǎn)品，叫做Gamma，是一個(gè)AI輔助制作PPT的工具。我覺得它完全可以“秒殺”Canva。我只需要提供一個(gè)大致的框架或主題，它就能自動生成內(nèi)容并排版。比如我小朋友學(xué)校要講解“什么是Podcast”，我交給Gamma，五分鐘就能出一整套PPT，排版也很好看。而且其中的內(nèi)容如果有不滿意的地方，簡單地手動修改再導(dǎo)出就可以了。

Kolento：很巧，我是Gamma的前100位用戶之一。我在它們2020年剛上線時(shí)就注冊了賬號，到現(xiàn)在我的credits都還沒用完。很多人知道Gamma是因?yàn)樗麬I生成PPT的功能，但我最早用它的時(shí)候還沒集成AI，那時(shí)我就覺得它的產(chǎn)品非常出色。

我現(xiàn)在所有的PPT都是用Gamma做的。不僅是因?yàn)樗腁I功能，而且它的立體效果也非常好。它是模塊化的PPT工具，可以自由拖拽不同模塊到不同的頁面，而且視覺效果非常有沖擊力。我記2020年左右我看了它們一個(gè)demo，展示了如何在靜態(tài)PPT中“炸出”一段視頻，當(dāng)時(shí)我就被震撼到了。從那以后我就一直用它們家的產(chǎn)品。

現(xiàn)在它們也上線了很多AI生成的功能，整個(gè)平臺變得非常完善。雖然免費(fèi)用戶現(xiàn)在只能做10頁，但這10頁幾乎能覆蓋大多數(shù)人的常見需求。而且它支持對每一頁做很精細(xì)的微調(diào)，提供幾乎所有需要的組件，甚至可以幫你判斷插入的圖片是否可商用，還能自動從不同圖庫中搜索替代素材。我覺得它們在每個(gè)細(xì)節(jié)上都做得很到位。

04 行業(yè)快與慢

泓君：過去的兩個(gè)月行業(yè)發(fā)展得非常快，大家覺得你們在心態(tài)或者做事方式上有哪些變化嗎？

Kolento：我覺得變化非常明顯。過去這幾個(gè)月，像Manus這樣的產(chǎn)品陸續(xù)發(fā)布，我的工作速度加快了，而且我的很多競爭對手也是。現(xiàn)在無論是開源還是閉源項(xiàng)目，有些時(shí)候甚至都會要求執(zhí)行大于計(jì)劃。

以前從產(chǎn)品經(jīng)理的角度出發(fā)，做事情的第一步通常是做詳細(xì)的拆解，考慮非常多的細(xì)節(jié)，可能會寫很長PRD（Product Requirements Document，產(chǎn)品需求文檔）。但現(xiàn)在我發(fā)現(xiàn)，很多團(tuán)隊(duì)已經(jīng)不再那么強(qiáng)調(diào)PRD，而是更關(guān)注怎么盡快打通從需求到落地的鏈路。

這種變化不只是我個(gè)人的感受，在工作場景中也非常明顯。整體來看，不論是行業(yè)節(jié)奏還是產(chǎn)品迭代的浪潮，統(tǒng)一都在加速推進(jìn)。我最大的感受就是：一切都變快了。

陶芳波：對我來說，最大的變化是我們發(fā)布了Second Me。但如果說到對整個(gè)Agent主題的感受，我和Kolento反而是有點(diǎn)相反的。

年初的時(shí)候，大家普遍覺得2025年將是“Agent之年”。雖然Manus發(fā)布了，MCP協(xié)議也越來越火，但我反而覺得，如果Agent真的要在2025年破繭而出，成為一種像大眾日常使用AI一樣的方式，仍然存在非常多的問題，而且越做發(fā)現(xiàn)問題越多。

今天的大語言模型，尤其在國內(nèi)，連我爸媽那樣的用戶都會使用豆包。基于大語言模型的聊天機(jī)器人已經(jīng)成為一個(gè)通用的產(chǎn)品形態(tài)。但如果我們談的是AI Agent，不論是垂類還是通用型，要達(dá)到同樣的日常使用程度，我覺得還有相當(dāng)大的距離。而且，很多問題不是靠某家公司搞出一個(gè)新功能就能解決的，它更像是一個(gè)行業(yè)級的挑戰(zhàn)。

比如有兩個(gè)大的問題。第一個(gè)是環(huán)境側(cè)的問題。每一個(gè)Agent，本質(zhì)上都在橋接用戶與環(huán)境，是需求與行動之間的轉(zhuǎn)化器：它要不斷挖掘用戶需求，并在環(huán)境中轉(zhuǎn)化為行動，實(shí)現(xiàn)雙向溝通。雖然環(huán)境側(cè)有了MCP協(xié)議，但這個(gè)協(xié)議還很不完善，生態(tài)滲透率也很低。就像任何一個(gè)標(biāo)準(zhǔn)協(xié)議一樣，MCP所需生態(tài)的配合和滲透，都是以年為單位來衡量的過程，而不是幾個(gè)月就能鋪開的。所以還需要慢慢推進(jìn)建設(shè)大量的生態(tài)。

第二個(gè)問題是Agent如何真正理解用戶需求。Agent要如何主動提問、捕捉需求、理解偏好。我們雖然已經(jīng)發(fā)布了開源項(xiàng)目，現(xiàn)在在GitHub上也有了9.2萬顆星，很多社區(qū)內(nèi)的人已經(jīng)在用了。但我們也發(fā)現(xiàn)一個(gè)很難解決的根本性問題，在未來的世界里，如果一個(gè)人真的想把Agent用好，他自己也必須具備一個(gè)高質(zhì)量的輸出通道。

泓君：一句話簡單解釋一下什么是MCP？為什么MCP的發(fā)展可能是一個(gè)“以年為單位”的過程。你覺得它目前還存在哪些待進(jìn)化的地方？

陶芳波：MCP是一個(gè)關(guān)于AI Agent如何訪問外部信息源或服務(wù)的協(xié)議。它不是Agent和Agent之間的，而是Agent和服務(wù)之間的協(xié)議。

我之所以說它需要以年為單位來進(jìn)化，并不是因?yàn)檫@個(gè)協(xié)議本身有多嚴(yán)重的根本性缺陷，盡管它還有很多可以改進(jìn)的空間。更核心的問題在于行業(yè)層面的采納意愿。

你希望行業(yè)能主動擁抱MCP，但很多平臺并不愿意開放它們的數(shù)據(jù)，因?yàn)檫@些接口和數(shù)據(jù)本身是它們商業(yè)模式的基礎(chǔ)。一旦引入MCP，其他Agent可以使用我的接口和數(shù)據(jù)，就會涉及到一系列問題，比如：身份驗(yàn)證如何處理？數(shù)據(jù)隱私怎么保障？最關(guān)鍵的是如何保障我的商業(yè)化？這些問題，目前還沒有行業(yè)統(tǒng)一的標(biāo)準(zhǔn)或解決方案。我們現(xiàn)在所擁有的，其實(shí)只是一個(gè)技術(shù)上的通道。

所以我認(rèn)為，目前行業(yè)的落地是以年為單位來推進(jìn)的。今天的MCP更多還是對于API的AI化封裝，而還沒有真正實(shí)現(xiàn)AI原生的程度，還無法讓Agent真正通過MCP這扇門進(jìn)入對方的環(huán)境中進(jìn)行自由操作。

文｜硅谷101

以下是這次對話內(nèi)容的精選:

01 RTF推動的Agent熱潮

泓君：首先請兩位嘉賓來分享下自己最近使用Agent的頻率是怎樣的？自己造了多少個(gè)Agent？

泓君：你覺得什么是Agent？

泓君：所以這是一個(gè)更適合做小而美的時(shí)代，因?yàn)榇髾C(jī)會都會被巨頭吃掉。

02 Agent爆火背后的密碼

泓君：所以你覺得像Cursor、Windsurf這些AI編程Agent，反而可能是最有可能殺出來的那一類，未來甚至可能發(fā)展成應(yīng)用很廣的巨型通用AI Agent？

因?yàn)橐粋€(gè)AI產(chǎn)品不可能靠一次成功的demo活下去，它需要持續(xù)迭代。而evaluation正是量化每次產(chǎn)品變更效果的唯一工具。

當(dāng)然，它和傳統(tǒng)的測試又不太一樣，更加靈活，也更偏向語義層面。目前市面上主要有三類方法：

2.Code-based Evaluation（基于代碼的評估）：優(yōu)點(diǎn)是快速、便宜，適合代碼生成類任務(wù)。但對語義復(fù)雜、交互豐富的應(yīng)用則不適用。

3.LLM-based Evaluation（大模型自評）：這是目前論文里最常提到的一種方向，讓模型不僅能生成，還能評估自己的輸出，具備高度自動化能力。

所以我認(rèn)為，未來要做出真正有競爭力的AI Agent，evaluation是必不可少的能力中心，從一開始就要建立起完整的evaluation框架。

您認(rèn)為我們是否真的需要為這25%的性能提升，付出成倍的成本？我聽說Manus內(nèi)部用的就是SFT技術(shù)。

03 垂類AI Agent推薦

泓君：在你目前使用過的這些Agent中，有沒有哪些在表達(dá)或交互上特別出色的？

Kolento：我覺得Replit非常出色，它在我需要澄清問題的時(shí)候，總是能及時(shí)引導(dǎo)我把需求講清楚。

視化的方式和我進(jìn)行對齊，對齊完之后再自主運(yùn)行。

所以我覺得像Fellou和Replit的設(shè)計(jì)理念更合理，在關(guān)鍵場景引入HITL（Human-in-the-loop，人機(jī)回圈）機(jī)制，與人類進(jìn)行對接。

泓君：在你們目前使用過的AI Agent中，如果從用戶體驗(yàn)和商業(yè)潛力兩個(gè)維度出發(fā)，有沒有哪些公司是你們特別看好的？

陶芳波：我個(gè)人認(rèn)為，現(xiàn)在市場上還沒有出現(xiàn)真正能覆蓋全人群、全通用場景的Agent產(chǎn)品，大家還在尋找不同的切入角度。

04 行業(yè)快與慢

泓君：過去的兩個(gè)月行業(yè)發(fā)展得非常快，大家覺得你們在心態(tài)或者做事方式上有哪些變化嗎？

陶芳波：對我來說，最大的變化是我們發(fā)布了Second Me。但如果說到對整個(gè)Agent主題的感受，我和Kolento反而是有點(diǎn)相反的。

泓君：一句話簡單解釋一下什么是MCP？為什么MCP的發(fā)展可能是一個(gè)“以年為單位”的過程。你覺得它目前還存在哪些待進(jìn)化的地方？

陶芳波：MCP是一個(gè)關(guān)于AI Agent如何訪問外部信息源或服務(wù)的協(xié)議。它不是Agent和Agent之間的，而是Agent和服務(wù)之間的協(xié)議。

簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

歷史搜索全部刪除

熱門搜索

AI Agent邁向中央舞臺：深度解析2025年進(jìn)化新格局

01 RTF推動的Agent熱潮

02 Agent爆火背后的密碼

03 垂類AI Agent推薦

04 行業(yè)快與慢

評論

AI Agent邁向中央舞臺：深度解析2025年進(jìn)化新格局

01 RTF推動的Agent熱潮

02 Agent爆火背后的密碼

03 垂類AI Agent推薦

04 行業(yè)快與慢