簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

從技術(shù)落地到哲學(xué)思辨,AI Agent發(fā)展的關(guān)鍵議題

掃一掃下載界面新聞APP

從技術(shù)落地到哲學(xué)思辨,AI Agent發(fā)展的關(guān)鍵議題

從技術(shù)落地到哲學(xué)思辨,AI Agent發(fā)展的關(guān)鍵議題

文|硅谷101

你或許已在工作中體驗過AI助手的便利,也可能在新聞里見過Agent自動完成復(fù)雜任務(wù)的報道。Agent作為硅谷AI領(lǐng)域最熱門的關(guān)鍵詞之一,各類產(chǎn)品如雨后春筍般涌現(xiàn),它們正以前所未有的速度滲透進我們的工作與生活。IDC認為,2025年,AI Agent將迎來規(guī)模化落地浪潮,其通過智能化任務(wù)處理重構(gòu)標準化作業(yè)流程的潛力備受期待。

然而,一系列關(guān)鍵問題亟待解答:當下的AI Agent究竟能為我們做什么,又存在哪些局限?當硅谷巨頭紛紛布局,創(chuàng)業(yè)公司該如何突圍?更重要的是,當AI從工具進化為 “團隊成員”,人機關(guān)系將如何重構(gòu),人類的獨特價值又將體現(xiàn)在何處?

本期節(jié)目,《硅谷101》邀請到7位來自AI研發(fā)、商業(yè)分析、心理學(xué)等不同領(lǐng)域的嘉賓,由我們的特約研究員、Entrepreneurs of Life主理人Sophie帶領(lǐng)大家從用戶體驗、技術(shù)挑戰(zhàn)、商業(yè)邏輯和社會影響四個維度,展開一場關(guān)于AI Agent的深度對話。以下是這次對話內(nèi)容的精選:

01 用戶視角:理想與現(xiàn)實之差

Chapter 1.1 什么是Agent?從工具到伙伴

Sophie:首先,讓我們從最基礎(chǔ)的問題開始:到底什么是AI Agent?我們發(fā)現(xiàn),不同人的理解還真不一樣。我們先來聽聽一位典型極客的看法。

鴨哥是大型物流軟件公司Samsara的AI應(yīng)用科學(xué)家,也是活躍在開源社區(qū)的AI達人;他在GitHub上魔改Cursor的開源項目獲得了超過五千個星標。在鴨哥看來,AI Agent需要滿足三個必要條件。

鴨哥: 在我看來,Agent需滿足三個必要條件:第一,具備工具使用能力,如調(diào)用搜索引擎搜索或調(diào)用編程語言;第二,擁有自主決策能力,明確獲取任務(wù)后可自主分解任務(wù),并按順序調(diào)用工具參數(shù)以完成最終目標;第三,決策需為多步、自我迭代的動態(tài)過程,即能根據(jù)前一步結(jié)果動態(tài)決定下一步行動,而非工作流式的靜態(tài)固定流程,例如依據(jù)搜索結(jié)果判斷是停止搜索還是更換關(guān)鍵詞深挖。

綜上我認為,滿足“工具調(diào)用”“自主決策”和“多輪迭代”這三個條件以后,才能稱為Agent。

Sophie:鴨哥從技術(shù)視角給出的定義非常清晰;與此同時,另一位非AI技術(shù)背景的嘉賓,在世界500強公司擔任數(shù)據(jù)策略總監(jiān)、業(yè)余身為播客主播的新琦,她對Agent的定義重點在于人與AI的合作關(guān)系。

新琦:從合作視角看,人Agent是真正的甲方與乙方關(guān)系,而非聘用合同工的關(guān)系。與合同工合作需要我們?nèi)ザx問題、拆解關(guān)鍵步驟并檢查交付成果,而真正的甲乙關(guān)系是:乙方作為端到端承接整條流程的系統(tǒng),在關(guān)鍵節(jié)點主動介入、提供決策建議,在接收高層指令后自動執(zhí)行,最終交付成品而非半成品。

Sophie:新琦在采訪過程中提到,她目前使用的Agent產(chǎn)品雖有不少亮點,但離她心目中Agent的標準還有距離。

下面,咱們來聽聽他們各自使用Agent產(chǎn)品驚喜、震撼時刻的場景,以及打動他們的功能或體驗。

鴨哥告訴我們,他從上班寫代碼到下班帶娃都離不開三類Agent的幫忙,讓我們來聽聽看。

Chapter 1.2 Agent的多重驚喜

鴨哥: 我經(jīng)常使用的AI Agent主要分為三類: 教練型、秘術(shù)型和搭檔型。

教練型:比如OpenAI的Deep Research、ChatGPT的O3,主要用于獲取調(diào)研信息、輔助深度思考,我把它當做了解不熟悉領(lǐng)域的窗口。

秘書型:如近期較火的Manus、Devin(均為訂閱工具),適合處理相對簡單的非沉浸式工作。例如哄娃睡覺時,我會讓Manus 基于《白雪公主》故事改編內(nèi)容,融入“好好吃飯”等教育引導(dǎo),再調(diào)用TTS工具生成音頻文件播放——秘書型工具擅長此類任務(wù),能讓我在娃睡前直接播放定制語音哄睡。

搭檔型:我比較喜歡用Cursor、Windsurf等做正經(jīng)的軟件開發(fā)工作,因為它們支持并鼓勵高頻交互,允許我全程參與指導(dǎo):先討論設(shè)計方案,再讓它把一個個小積木搭起來,最后我作為架構(gòu)師再組合這些積木并審計結(jié)果,確保達成開發(fā)目標,更符合科班化、高標準的工作流程。

Sophie:CreateWise是一款我參與內(nèi)測的AI軟件。你只要一鍵上傳音軌,軟件就能直接輸出完整剪輯后的音頻,甚至能提供“哪些地方需要剪輯”的決策建議,以及利用AI模仿聲音擬合結(jié)構(gòu),使語句更清晰,并對修改語句進行高亮顯示,方便用戶對比前后效果。我試用后向開發(fā)團隊提出,你需要給我逐句剪輯的空間,因為有的剪輯是我喜歡的,有的剪輯不是我要的。他們現(xiàn)在已經(jīng)提升這個功能的優(yōu)先級并上線了。

此外,CreateWise能根據(jù)用戶對剪輯的選擇,直接串聯(lián)到“文案生成和宣發(fā)”模塊,針對不同平臺生成相應(yīng)文案,比如為音頻平臺生成shownotes、金句、標題建議。針對YouTube或Instagram等平臺,它還能依據(jù)視頻尺寸比例等細節(jié),生成可以直接發(fā)布的內(nèi)容。

Sophie:這款專注于播客制作場景的產(chǎn)品通過對工作流的深度了解和針對每一環(huán)節(jié)的特定優(yōu)化讓新琦印象深刻。而另一方面,有幾款通用型Agent產(chǎn)品也在一般性任務(wù)的執(zhí)行上,受到了用戶紐約大學(xué)應(yīng)用心理學(xué)系大三學(xué)生Kolento的好評。

Kolento:我說幾個不同的場景。

通用層面,我近期一直使用Manus。前幾天新出現(xiàn)的Genspark Janus Park中,Super Agent模式對我來說比較驚艷,能協(xié)助我完成此前不太想完成的事務(wù)。這兩者的差異之一是用戶體驗:起初,Manus的UI/UX視覺沖擊力最吸引我;Genspark則具備類似將大量圖片、內(nèi)容及鏈接組合的功能,我此前主要用它進行旅游搜索,但它的界面視覺沖擊力不及Manus,在一定程度上降低了我持續(xù)使用的熱情。

另外,從本質(zhì)來看,Genspark和Manus均支持Agent執(zhí)行過程的鏈接分享與回放功能,用戶可以回顧完整對話過程,甚至能基于該上下文延續(xù)對話。同時,它們也都能調(diào)用許多工具。不過,我對它們背后的規(guī)則了解有限,只聽說Manus可能未使用MCP,而是采用CodeAct,但我并不知道Genspark具體內(nèi)部使用的算法或工具。它們都能對任務(wù)做良好的規(guī)劃與拆解,也會調(diào)用很多不同的工具,只是各自設(shè)計的工具可能存在細微差別,因為我感覺Genspark之前在旅游等場景上的表現(xiàn)相當不錯,所以他們可能配備了一些預(yù)設(shè)的旅游搜索工具。

還有一個有趣的差異:Genspark的部分功能可能是Manus尚未具備的,比如“call for me”功能可以幫你打電話、預(yù)約酒店等,當時讓我有一個小的“Aha moment”。

編程層面,我比較喜歡Replit Rapid。我之前用Cursor和Windsurf,但Replit Rapid更像 Agent,能承擔更多角色。

學(xué)術(shù)層面,我近期用Elicit,但它沒有達到我心中Agent的定義。

Chapter 1.3 用戶吐槽大會

Sophie:AI有驚喜點,當然也有槽點。

在聽聽具體槽點之前,我想分享鴨哥一項有意思的洞察,那就是隨著各種Agent產(chǎn)品的不斷發(fā)布,他的槽點在飛速地進化;很多他以前吐槽過的點現(xiàn)在卻吐槽不了了,比如復(fù)雜任務(wù)中工具調(diào)用能力不足、寫作AI味兒太重、上下文窗口不夠長等等,他在近期發(fā)布的產(chǎn)品新版本中都看到了很大程度的改善。所以,用戶今天的槽點和痛點,也將是Agent搭建者下一步重點攻堅的方向。在聽完槽點后,我們緊接著也會聽聽幾位搭建者相應(yīng)的思考和回應(yīng)。先從鴨哥的槽點開始。

鴨哥:當前AI模型的指令遵循能力雖然較以往有顯著提升,但仍然存在不足。以GPT 4.1為例,當我要求它根據(jù)五章提綱先完成1-3章、再續(xù)寫4-5章且明確要求不在1-3章結(jié)尾添加“未完待續(xù)”時,模型還是總以“未完待續(xù)”或“我們下一次再繼續(xù)寫,你還有其他想寫的嗎?”等類似表述收尾。我嘗試了多種提示工程方法,均未解決該問題,最終只好通過逆向思維方法:將模型強制添加的“未完待續(xù)”字符串通過程序替換為空,從而完美地解決了這個問題。但如果AI模型的指令遵循能力足夠完善,就不會出現(xiàn)這些亂七八糟的事情。

第二個槽點是在我使用AI產(chǎn)品的過程中,許多產(chǎn)品仍存在“為了使用AI而使用AI”的現(xiàn)象。例如Claude的Computer Use或OpenAI的Operator,都會用一個例子來展示“我很厲害,可以幫你訂機票,輸入信用卡號,輸入各種信息,幫你點擊預(yù)訂機票的按鈕”。但用戶預(yù)訂機票時最耗時的環(huán)節(jié)并非填寫信息,而是確定出行日期——如果我選擇前一天晚上出發(fā),需要權(quán)衡酒店費用與機票價格、是否能避免早起,后一天出發(fā)需要考慮送孩子上學(xué)的時間、綜合比較酒店加機票總價等。這些最麻煩的選擇和考量才是用戶的核心痛點。因此對AI產(chǎn)品開發(fā)者而言,需要針對用戶實際需求設(shè)計產(chǎn)品,避免為用AI而生硬使用AI。

第三個觀察到的現(xiàn)象是:AI雖然能力強大,但人類社會本質(zhì)上是“人類友好”(human friendly)系統(tǒng),專為人類設(shè)計。因此,許多信息或資源只有人類能夠接觸和獲取,AI則完全無法訪問。

例如在商務(wù)洽談或事務(wù)處理中,無論是公司內(nèi)部討論設(shè)計方案還是外部商務(wù)談判,很多重要決策并沒有正式書面文檔作為依據(jù),而是在非正式場合(如喝咖啡、飯桌上)作出。而AI無法獲取這些存在于人際交流中、尚未被文字記錄的“部落知識”(tribal knowledge)。這并非AI自身的問題——你也不可能要求人們在與客戶飲酒洽談時,攜帶攝像機記錄一切并輸入給AI。這種困境根植于人類社會的運作方式,目前我也不知道該如何解決,但這確實是一個令人感到無奈的方面。當前AI能獲取的信息或許只是冰山一角,大量隱性未記錄的“廢墟信息”仍無法觸及,如果能突破這一限制,AI將實現(xiàn)更廣泛的應(yīng)用場景。

Sophie:Agent不服從指令,為了AI而AI、和缺乏人類世界暗信息——鴨哥的這三個槽點涉及了技術(shù)、產(chǎn)品設(shè)計、和人類社會對AI的環(huán)境局限等種種方面。而新琦則以她的親身體會說明了Agent產(chǎn)品缺乏人情味的問題。

新琦:我現(xiàn)在看到很多Agent或者AI產(chǎn)品所不具備的,就是“真實性”。我們在多人播客里會有笑場,但是比如說我用CreateWise,它會將多人同時發(fā)出的“哈哈哈”視為重復(fù)詞而刪減,僅保留少量“哈哈”。可是在我看來,這才是這個節(jié)目很有意思的地方。或者,多人播客里集體的沉默在很多的AI軟件里會被認為需要壓縮,因為AI覺得要保持一定的信噪比和信息密度輸出。但是,集體沉默很多時候是非常有意思的,比如主播拋出一個問題的時候,如果有3秒沉默,就說明這個問題非常值得探討。這類留白是內(nèi)容深度的體現(xiàn),卻會被AI當作無效信息去除。

當我們在說音頻剪輯的時候,一是語言類型,不同AI產(chǎn)品對中文音頻的識別、轉(zhuǎn)譯及剪輯能力與英文存在顯著差距。二是節(jié)目形式,即單人播客或多人群聊播客:單人播客相對簡單;而多人播客則復(fù)雜得多,核心在于多人播客需依賴多軌處理而非單音軌合并——既要保證聽眾聽清對話內(nèi)容,又需保留搶話時的真實氛圍,這非常考驗手藝人的“手藝活兒”。目前,多數(shù)AI軟件或Agent在這方面能力不足,即便支持多軌上傳,連多軌對齊都很難做到精準。

國內(nèi)市場的風(fēng)險偏好整體低于美國分析師或從業(yè)者。品牌傾向于控制色彩、色號數(shù)量及SKU總量,使得庫存周轉(zhuǎn)長期維持在相對穩(wěn)健的位置上。彩妝品類長期盈利困難,包括資生堂在內(nèi)的許多品牌均承認色彩類產(chǎn)品不賺錢。因此,二級市場在評估彩妝品類時,對一級市場品牌興衰的紅利期心存疑慮,更期待品牌上市后能長期保持穩(wěn)健與可預(yù)期性。尤其在國內(nèi),二級市場機構(gòu)投資者傾向于“先學(xué)挨打再學(xué)打人”,希望品牌控制風(fēng)險,做到SKU可控:哪怕有50個色號,也至少需要明確告知重點生產(chǎn)的是哪些色號,其余則視為品牌建設(shè)的成本。

Chapter 1.4 思維升級:從用戶到共創(chuàng)者

Sophie:面對我的吐槽邀請,有一位嘉賓卻出人意料地吐槽了這個環(huán)節(jié)本身,覺得它代表了用戶對于Agent在心態(tài)上的一種誤區(qū)。這位嘉賓是身為Statsig數(shù)據(jù)科學(xué)家、博主和AI社區(qū)Superlinear Academy發(fā)起人的課代表立正。他是這么說的:

課代表立正:我覺得這個吐槽的做法本身是錯誤的。第一是理解上的錯誤,第二是使用上的錯誤。

理解上的錯誤在于,Agents并沒有魔法,而是由過去的大語言模型、現(xiàn)有工具及協(xié)議逐步搭建而成。因此,指望它在當下就達到完美無缺的狀態(tài)并不現(xiàn)實。人們的心態(tài)往往帶有上一個時代的烙印——過去大多數(shù)工具是圖形用戶界面(GUI),點擊按鈕便就應(yīng)該產(chǎn)生預(yù)期效果,如果按鈕無效,可以直接吐槽。但AI并非如此,所以要學(xué)會如何用好它,才能發(fā)揮它真正的用處。

Sophie:在探索怎么用好Agent工具這一點上,課代表立正曾在他的博客里分享過用Manus反復(fù)嘗試一項任務(wù)15次,終于成功的經(jīng)歷。他說:

課代表立正:如果大家沒有一個學(xué)習(xí)的路徑或改進的路徑,肯定用不好AI。以我分享的Manus為例,它雖然出了14次錯,但第15次成功了,說明它本身具備成功的潛力,問題可能出在我前14次的使用方式上。我該吐槽Manus,還是該反思為什么我自己花了14次迭代才成功,而不是一次就調(diào)教成功呢?這說明我使用AI的能力還有待提高。

對待AI不能沿用普通用戶的心態(tài),而是必須用搭建者的心態(tài)。如果你還是像用戶心態(tài)那樣,今天吐槽產(chǎn)品設(shè)計不足、明天批評功能不完善,會被這個時代落下的。

Sophie:聽了這么多用戶的喜悅和困惑,這些問題從開發(fā)者的角度看又是怎樣的呢?我們把視角轉(zhuǎn)向搭建者,看看他們對用戶提出的痛點有什么回應(yīng),以及他們在技術(shù)和產(chǎn)品上的思考方向。

02 搭建者回應(yīng):技術(shù)攻堅進行時,更是價值觀

Chapter 2.1 預(yù)期管理、指令遵循與人類暗信

2.1.1 用戶預(yù)期管理:AI如職場新人

Sophie:說到痛點,我個人作為Agent用戶的一項體會是,Agent對自身能力邊界似乎沒有清晰的認知,它們時常不知道自己哪些任務(wù)能順利完成,哪些可能會遇到困難、需要和我更多交互,而哪些完全在它的能力之外。這導(dǎo)致Agent不大擅長管理我的預(yù)期,而是無論什么需求都一口答應(yīng),最終結(jié)果卻時有不盡人意。我把這個問題拋給了身為Agent搭建者的曲曉音,她創(chuàng)立的HeyBoss AI今年初剛上線,主打用戶一句話提示詞生成完整網(wǎng)站或APP服務(wù)。曉音分享了她的看法。

曉音:我認為這個問題的核心,首先在于AI Agent背后的語言模型本身還不夠智能,但更反映了工作方式的變革。舉個例子,比如一個特別有才華、但沒有工作經(jīng)驗的清華學(xué)生來公司當實習(xí)生,無論讓ta做什么都自信滿滿,說“沒問題,包在我身上”。然而,ta的實際產(chǎn)出卻不符合預(yù)期,且難以預(yù)判風(fēng)險,或無法有效溝通。隨著工作經(jīng)驗的積累,這位清華學(xué)生才逐漸懂得評估任務(wù)耗時、預(yù)判風(fēng)險并提前同步——這種能力提升源于經(jīng)驗沉淀,而非智商差異。

類比到AI領(lǐng)域,工作5-10年的職場人能精準管理預(yù)期,AI也需要通過處理大量重復(fù)任務(wù)積累經(jīng)驗,從而判斷結(jié)果好壞。核心衡量標準不僅在于AI是否完成任務(wù),更在于用戶是否感知其完成——這有點像清華實習(xí)生的工作成果也需要以老板滿意度為衡量標準:老板滿意了,那才叫真正做好了,否則即使自認為完成了也無效。

我認為相關(guān)的數(shù)據(jù),比如用戶滿意度、任務(wù)完成度、老板滿意度等反饋,更多地掌握在應(yīng)用層的AI Agent開發(fā)者手中,也就是像我們這樣的AI應(yīng)用公司,而不是掌握在OpenAI這類基礎(chǔ)模型提供商那里。預(yù)期的標準本身是由“老板”(用戶)來設(shè)定的。如果我們擁有足夠的數(shù)據(jù),就能判斷預(yù)期是否得到了滿足。當我們?nèi)狈碜浴袄习濉钡臄?shù)據(jù)時,就無法了解他們真正的預(yù)期是什么。

因此,我認為當前AI面臨的最大問題在于:它就像一個沒有工作經(jīng)驗的清華學(xué)生。我們需要為它提供“工作經(jīng)驗”,并給予它來自“老板”的反饋——比如,做得是好還是不好?完成了還是沒完成?打幾分?這樣的話,AI的表現(xiàn)會更加準確。

此外,使用場景需要具備一定聚攏性。部分產(chǎn)品宣稱“無所不能”,業(yè)務(wù)范圍從給孩子訂餐延伸至解決宇宙問題,覆蓋過于寬泛反而導(dǎo)致聚焦不足,用戶評價體系也難以形成特定模式。比如,我們聚焦于做網(wǎng)站和APP從而幫助小企業(yè)主、創(chuàng)業(yè)公司或者營銷部門。每個場景都可以明確評判是否達成了用戶需求及使用目的,由此能積累大量重復(fù)性數(shù)據(jù),從而評估服務(wù)效果。反之,如果場景分散,評判體系將因缺乏統(tǒng)一標準而難以有效建立。

Sophie:曉音的比喻非常生動,將Agent比作一個聰明但缺乏工作經(jīng)驗的實習(xí)生,解釋了需要積累用戶反饋數(shù)據(jù),才能幫Agent建立自身能力與用戶預(yù)期比較的標尺;同時,她也強調(diào)了專注于特定領(lǐng)域可以幫助Agent積累更有價值的反饋。

另一方面,鴨哥前面提到的"Agent不遵守指令",則是另一位搭建者嘉賓重點攻克的議題之一。俞舟是哥倫比亞大學(xué)計算機副教授,她的創(chuàng)業(yè)公司Arklex.AI為新東方、沃爾瑪?shù)绕髽I(yè)級客戶內(nèi)部Agent應(yīng)用開發(fā)提供框架與工具,同時也面向終端用戶提供自營Agent產(chǎn)品。她從技術(shù)層面給出了“如何讓Agent更聽話”的應(yīng)對策略。

2.1.2 指令遵循:評測、防護欄與工作流

俞舟:實際上,Agent并非只有一個或某種單一的東西,而是包含了很多組成部分。比如Guardrails的核心目標是防范各類不良情況,而這一過程相當復(fù)雜。它并非只是一個工具,而是會傳授一套完成任務(wù)的完整最佳方式。而且非常重要的一點是必須開展測試與評估——如果不明確Agent行為的好壞標準,僅憑主觀隨意操作,肯定無法得到理想結(jié)果。我們會根據(jù)它的評測結(jié)果做各種調(diào)整,可以用Agent的工作流來處理這些問題。

Sophie:Evaluation評測、Guardrail防護欄和Workflow工作流這三個關(guān)鍵詞非常值得關(guān)注。在工作流方面,曉音從產(chǎn)品設(shè)計角度,提出了一種具體的解決方案。

曉音:我們也提供了很多工具,不是通過AI來修改,而是讓用戶像改PPT 那樣,圈一下這個字,把它弄大弄小、改個動畫。我們發(fā)現(xiàn)很多情況下,用戶還是希望結(jié)果更可控。他們可能選擇替換字、詞、圖片,或者添加效果,傾向于用PPT的這種傳統(tǒng)方法,而不是AI的方法——因為覺得不太可控。所以,“可能不可控”和“可控但是限制性”的功能都需要。

2.1.3 人類暗信壁壘:場景滲透困境

Sophie:最后,關(guān)于鴨哥提到的“AI缺乏人類暗信息”這個根本性挑戰(zhàn),曉音的看法是:這個問題的確難以短期內(nèi)解決,但它在不同應(yīng)用場景下的嚴重程度是不同的。

曉音:我們工作的性質(zhì)原本就是線上完成的,例如開發(fā)一個網(wǎng)站時,與巴基斯坦的外包公司或發(fā)布平臺上的公司合作。合作方很少與我們進行線下會面,更不會通過握手力度來判斷彼此的契合度,這些對于我們而言并非關(guān)鍵要素。因此,從人際溝通的角度來看,線上線下之間沒有顯著差異。

這恰恰是我們所處賽道比較適合AI來超越人類的一個原因。然而對于某些行業(yè),比如線下服務(wù)領(lǐng)域,或是大型企業(yè)的銷售崗位,很多關(guān)鍵性的工作或決策往往是在高爾夫球場的包廂等非正式、面對面的場合完成的。在這種情況下,AI所能獲取的相關(guān)輸入數(shù)據(jù)確實不足。所以,我認為這更多地取決于該領(lǐng)域Agent本身的特性,以及它所要取代的人類工作的具體性質(zhì)。

Sophie:所以,搭建者們在考慮Agent創(chuàng)業(yè)方向時,應(yīng)用場景對于暗信息的依賴程度或許是需要思考的。

Chapter 2.2 技術(shù)突圍、產(chǎn)品設(shè)計和市場培育

Sophie:除了應(yīng)對這些用戶痛點,我們也很好奇,Agent搭建者們目前還在哪些方向上尋求突破呢?我們的嘉賓們分享了他們在技術(shù)、產(chǎn)品設(shè)計和市場培育三個方面重點攻堅的議題。

2.2.1 技術(shù)攻堅:自我進化與多Agent協(xié)作

Sophie:俞舟教授介紹了她和團隊正在探索的前沿技術(shù)。

俞舟:在我自己的實驗室里,我們也在做一些我認為非常重要、具備創(chuàng)新能力的研究。比如自我糾正和各種各樣的自我學(xué)習(xí)能力。

Sophie:而曉音則透露,他們正在深度挖掘多個Agent協(xié)作的潛力。

曉音:多Agent協(xié)作會越來越普遍。當下討論的核心不是向用戶售賣單個Agent,而是提供一套需多Agent協(xié)同的解決方案。為了提升協(xié)作效能,需要引入AI CEO或AI Leader Agent統(tǒng)籌調(diào)度其他Agent。這可能是一個發(fā)展趨勢,優(yōu)勢在于通過聚合多Agent的能力、多元技能及靈活合作模式,來解決單一Agent或單一技能無法應(yīng)對的復(fù)雜問題。

Sophie:“眾人拾柴火焰高”--這句老話或許對Agent也適用。但俞舟也提醒我們,這條路上還有不少技術(shù)挑戰(zhàn)。

俞舟:當有很多Agent同時在一臺機器上工作時,就會產(chǎn)生問題,如果讓多個Agent分別在不同的分布式系統(tǒng)節(jié)點或不同的機器上工作,又會帶來更多問題。關(guān)于如何更好地、更高效地、低成本地、處理這些問題,同時還要解決很多并發(fā)以及其他各種各樣的問題,我們還有很多工作要做。

Sophie:尤其是在企業(yè)級應(yīng)用中,安全問題將成為最大的技術(shù)挑戰(zhàn)。

俞舟:最大的難關(guān)就是安全。以一個最簡單的系統(tǒng)問題為例——數(shù)據(jù)庫。以前數(shù)據(jù)庫是供人使用的,人有權(quán)限去修改數(shù)據(jù)庫的內(nèi)容。但現(xiàn)在,Agent需要去修改這些內(nèi)容。如果同時有多個Agent要去修改同一個數(shù)據(jù)庫,我們該怎么辦?萬一它們修改后,數(shù)據(jù)庫里的數(shù)據(jù)變得不一致了,甚至需要花大量時間去恢復(fù)原狀,怎么辦?而目前數(shù)據(jù)庫本身無法提供一種既高效又便捷的方式來存儲數(shù)據(jù),并與Agent進行連接。

比如,當兩個Agent交互時,哪些記憶可以分享,哪些不能?還有,數(shù)據(jù)庫需要有g(shù)overnance layer(治理層)——有些Agent可以接觸某些數(shù)據(jù),而有些Agent則不能,這就像人一樣,一旦你存在安全漏洞,沒有相應(yīng)權(quán)限,就不能接觸核心數(shù)據(jù)。此外,還需要區(qū)分哪些是對外接口,哪些是內(nèi)部接口等等。這里面有很多非常具體的工作要做。

2.2.2 產(chǎn)品設(shè)計:行業(yè)經(jīng)驗和用戶洞察

Sophie:除了技術(shù)層面,產(chǎn)品設(shè)計同樣是搭建者們關(guān)注的重點。在這一點上,曉音提出:在大模型實力之上,Agent應(yīng)用還亟需積累具體的行業(yè)經(jīng)驗和用戶洞察。

曉音:大模型的變化有點類似于人的智商水平。大模型更聰明并不代表它在具體技能上更懂行,這是因為掌握一項技能除了需要聰明才智,可能還需要一些行業(yè)的技術(shù)訣竅(know-how),或者是對具體應(yīng)用場景的理解,這些往往依賴經(jīng)驗積累而非單純的智商驅(qū)動。所以對我們來講,這兩者都非常重要。

以具體場景為例:創(chuàng)業(yè)者要做一個公司官網(wǎng),小企業(yè)主想賣課,或者咖啡店需要處理訂單時,僅靠大模型的通用智能遠遠不夠,AI工具還需要精準把握行業(yè)特性,比如了解該行業(yè)的最新運營模式、競爭對手動態(tài)等,最終目標是確保網(wǎng)站和APP切實為業(yè)務(wù)創(chuàng)造商業(yè)價值。

我們需要:第一,了解特定行業(yè);第二,與時俱進地了解行業(yè),跟上行業(yè)變化;第三,讓AI具備一定的品位——更多的是AI本身的設(shè)計能力。即使你自己不懂設(shè)計,但是AI提供的方案要有一定的調(diào)性和個性,并且符合品牌預(yù)期。

這并不一定是大模型越強大,品位就越好。品位的形成更多源于我們的訓(xùn)練過程,也源于設(shè)計這些Agent的人員自身的品位,以及我們對客戶所處行業(yè)的所需品位的理解。這是因為有些客戶無法清晰表述他們期望的品位,他們可能僅僅指出“太亂、太土、不夠直觀”,這些描述都相當模糊。例如,如果這位小企業(yè)主是健身博主,他所說的“土”是什么含義?如果他是一位銷售水電工具的商家,他所說的“土”又是什么含義?如果是一家AI創(chuàng)業(yè)公司,“土”又意味著什么?每個人對“土”的定義是不同的。我們需要深入理解,透過表面現(xiàn)象探尋本質(zhì)。

Sophie:AI的"智商"提高了,但不代表它懂得行業(yè)最新趨勢或者審美標準,這些需要專門的訓(xùn)練和調(diào)整。

2.2.3 市場培育:企業(yè)流程重構(gòu)

Sophie:在市場培育方面,俞舟提出了一項經(jīng)常被技術(shù)人忽視的關(guān)鍵挑戰(zhàn)。

俞舟:當前這個領(lǐng)域似乎被炒得很火,但實際的投資回報率(ROI)并不顯著,在大企業(yè)中的部署應(yīng)用也相對較少。然而,我認為這更多是一個時間問題。因為大企業(yè)的組織結(jié)構(gòu)使其變革和推進新事物通常較為緩慢。技術(shù)本身往往不是最難的,真正的挑戰(zhàn)在于“人”的因素。我們需要重新構(gòu)建他們的工作流程,這實質(zhì)上是在調(diào)整生產(chǎn)關(guān)系,因此需要深入了解企業(yè)并設(shè)法“教育”員工,引導(dǎo)他們更好地利用AI。以上過程需要循序漸進,并非產(chǎn)品一經(jīng)推出就能立刻投入使用。它需要企業(yè)自上而下、以“頂層設(shè)計”的方式,系統(tǒng)性地解決這個問題。

Sophie:“技術(shù)容易,人事困難”——這句話道破了很多技術(shù)創(chuàng)新最終失敗的原因。引導(dǎo)市場和客戶重構(gòu)工作流程和生產(chǎn)關(guān)系往往比開發(fā)技術(shù)本身更具挑戰(zhàn)性。

03 商業(yè)視角:初創(chuàng)企業(yè)競爭指南

Sophie: 聽了這些搭建者的分享,我對Agent從前沿黑科技到進入尋常百姓家需要克服的挑戰(zhàn)有了更立體的理解。那么,這些技術(shù)和產(chǎn)品如何轉(zhuǎn)化為擁有壁壘的長期商業(yè)模式呢?我們切換到商業(yè)視角,一起聽聽來自投資和創(chuàng)業(yè)領(lǐng)域的觀點。

Chapter 3.1 打破SaaS壁壘:高質(zhì)數(shù)據(jù)與客戶關(guān)系

高寧:首先,正如硅谷投資人Sarah Guo在去年年底的一次分享中點明的,當前具備多模態(tài)、強理解與總結(jié)能力的 Agent能產(chǎn)出新的數(shù)據(jù),而這正為打破傳統(tǒng)SaaS的既有格局提供了可能。新興公司所實現(xiàn)的新數(shù)據(jù),其來源已不完全掌握在傳統(tǒng)SaaS公司手中。以醫(yī)療診斷記錄為例:傳統(tǒng)模式下,醫(yī)生手動錄入訪談數(shù)據(jù)至表格。雖然存在很多門診SaaS及病例管理公司,但數(shù)據(jù)掌控權(quán)并不集中在它們手中。如今的語音數(shù)據(jù)經(jīng)AI整理后,生成更新、更準確、更豐富的信息。掌握此類新數(shù)據(jù)的初創(chuàng)公司,其競爭力未必遜于傳統(tǒng)SaaS,因為豐富、高質(zhì)量的數(shù)據(jù)才是核心價值點。

在于渠道與客戶關(guān)系。許多初創(chuàng)公司面臨這一挑戰(zhàn)。如果能服務(wù)高速增長的初創(chuàng)企業(yè),并伴隨其成長為未來的平臺型巨頭乃至上市公司,就能自然構(gòu)建起新的渠道與客戶關(guān)系。從這一點看,傳統(tǒng)公司的優(yōu)勢并非牢不可破。所以我持樂觀態(tài)度。尤其是在外包或傳統(tǒng)服務(wù)驅(qū)動型領(lǐng)域,它們原本依賴人力處理大量數(shù)據(jù)并總結(jié)工作,而Agent或AI的介入能更高效地輸入和輸出結(jié)構(gòu)化、豐富且高價值的結(jié)果。這是初創(chuàng)公司挑戰(zhàn)現(xiàn)有市場格局的一條路徑。

當然,部分反應(yīng)迅速的傳統(tǒng)SaaS公司,特別是仍處于高速增長期的公司(如Salesforce),也具備追趕潛力。許多處于成長階段的SaaS公司,如果能積極探索Agent路徑,同樣有望迎頭趕上。

Sophie: 傳統(tǒng)SaaS積累的數(shù)據(jù)可能在AI時代反而不再那么有價值,而新的數(shù)據(jù)采集和處理方式可能重新洗牌競爭格局。 那么,Agent創(chuàng)業(yè)公司如何建立自己的新護城河呢?這里,高寧強調(diào)了工程能力和產(chǎn)品設(shè)計與運營的重要性。

Chapter 3.2 建立護城河:用戶默契培育

高寧:當前,對模型的理解正轉(zhuǎn)化為工程能力,并應(yīng)用于具體產(chǎn)品之中,這一過程本身相當復(fù)雜,具備相關(guān)能力的人才也較為稀缺。因此,這在某種意義上構(gòu)成了技術(shù)壁壘——無論基于模型的表現(xiàn)進行評估和調(diào)優(yōu),還是對模型本身進行精細調(diào)整,你都需要深刻理解如何運用模型、明確調(diào)整的方向,才能使你的產(chǎn)品呈現(xiàn)更好的效果。

Manus的合伙人張濤曾在極客平臺分享過類似見解,讓我很受啟發(fā)。這其中蘊含著重要的專業(yè)知識和實踐經(jīng)驗,同時也涉及對不同模型的選擇。當前各類大小模型不斷涌現(xiàn),發(fā)展速度和迭代頻率均十分迅速。因此對模型的理解本身,也可以視為一種技術(shù)壁壘。

此外,產(chǎn)品層面的體驗設(shè)計與呈現(xiàn)方式同樣關(guān)鍵,例如如何降低用戶使用門檻?如何優(yōu)化on boarding流程,讓它更順暢?以及如何引導(dǎo)用戶創(chuàng)造更多use case并提升用戶活躍度?這還關(guān)聯(lián)到市場營銷、用戶增長等諸多方面,這些因素在我看來也至關(guān)重要。

所以,我認為現(xiàn)在初創(chuàng)公司所面臨的挑戰(zhàn)正日益嚴峻。然而從另一個角度看,各方面能力的精進都能構(gòu)成其獨特的競爭壁壘。

Sophie:懂得如何調(diào)用和優(yōu)化模型,并將其轉(zhuǎn)化為優(yōu)秀的產(chǎn)品體驗,這本身就是一種稀缺的能力。鴨哥則從了解用戶偏好和使用習(xí)慣的角度,提出了"默契"這個有趣的護城河概念。

鴨哥:最淺顯的護城河或體現(xiàn)在數(shù)據(jù)層面。以Manus或Devin為例,它們具備一項功能:記錄用戶對輸出的糾正,并將這些知識應(yīng)用于后續(xù)的對話中。假設(shè)某公司使用Manus制作PPT,初次生成的版本主色系是綠色。假設(shè)用戶不滿意,要求把主色系改為藍色,這就是一個數(shù)據(jù)積累的例子。當未來該用戶或公司內(nèi)其他成員再次請求制作PPT時,系統(tǒng)能根據(jù)這次數(shù)據(jù)自動采用藍色作為主色系。隨著這類糾正和反饋的持續(xù)累積,用戶與AI之間會逐漸形成一種“默契”。用戶會感受到系統(tǒng)的高度適配性,覺得其“好用”,因為它已了解老板喜歡什么、知道公司內(nèi)部的各種規(guī)章制度,無需用戶反復(fù)糾正。

此時,如果出現(xiàn)一個競爭對手,即使它的技術(shù)實力強大,但由于缺乏對該公司特定內(nèi)部信息的了解,它生成的PPT可能仍會沿用綠色主色系,這可能引發(fā)用戶對它能力的質(zhì)疑。這就是一個非常大的護城河,哪怕它真的很聰明,但用戶也不愿意去用。此時創(chuàng)業(yè)者或產(chǎn)品經(jīng)理就應(yīng)該思考:如何有效利用數(shù)據(jù)構(gòu)建類似的數(shù)字護城河?如何促進用戶與AI之間產(chǎn)生這種默契感?這或許是當下最有效的競爭策略。

Sophie:俗話說“衣不如新,人不如舊”;當Agent競品的技術(shù)水平足夠接近、足夠滿足用戶基本需要時,我們是否也會說,“AI不如舊”呢?曉音還進一步指出,真正的護城河是解決用戶的終極目標,而不只是提供中間步驟。

曉音:幫用戶實現(xiàn)最終目的、把價值鏈做長更難被取代。

我們表面上是在編寫代碼,但實際上,我們的工作是幫助用戶運營他們的業(yè)務(wù)。我們通過我們的軟件、應(yīng)用程序或網(wǎng)站,協(xié)助用戶塑造品牌形象,吸引并留住用戶,最終幫助他們更好地盈利。所以最終來講,一個Agent的目的也應(yīng)是幫助用戶賺錢,而不僅僅是提供一個軟件或工具供他們使用。

在這種情況下,我們需要更深入地了解用戶,尤其是要掌握更多后臺數(shù)據(jù),比如用戶的引流效果如何,他們在網(wǎng)站上停留了多長時間等等。我們需要了解這些方面的數(shù)據(jù)。我們在特定垂直領(lǐng)域做得越深入,我們的不可替代性就越強。

如果我們只是單純停留在設(shè)計和開發(fā)網(wǎng)站,不再考慮用戶是否真的使用、是否實現(xiàn)了轉(zhuǎn)化,那么我們構(gòu)建的護城河就不會很高。相反,如果我們能直接幫助用戶實現(xiàn)最終的盈利目標,我們就更難被取代。

Sophie:這種"價值鏈延伸"的思路值得思考,從做網(wǎng)站到幫助獲客、留存、變現(xiàn),這種全鏈路服務(wù)更難做好,也自然更難被替代。

Chapter 3.3 大模型公司是否擠壓Agent初創(chuàng)公司

Sophie:說到替代,我們不得不面對一個尖銳的問題:OpenAI、Anthropic這些大模型公司自己也在加強Agent能力,它們會不會最終擠壓創(chuàng)業(yè)公司、尤其是通用類Agent公司的生存空間?高寧對此有一個很辯證的看法。

高寧:像現(xiàn)在的 GPT、Deepresearch、Manus或者Genspark,這些通用型的Agent,理論上多少存在一些既競合關(guān)系。但因為它們都在吸引越來越多的新用戶,讓更多的小白用戶了解Agent能做什么事情,所以在中短期內(nèi),我認為這個問題并不大。

長期來看,當模型和模型產(chǎn)品的用戶越來越多時,如果用戶同時使用兩款產(chǎn)品,而這兩款產(chǎn)品表現(xiàn)出的差異并不明顯,那么一定會有一些替代。但對于這種應(yīng)用型的產(chǎn)品,它的好處在于其背后依賴的是一個模型,而且這種依賴是無感知的。也就是說,用戶可以根據(jù)哪個模型表現(xiàn)更好,甚至哪種模型組合的效果更好、成本更低、效率更高來選擇各種各樣的模型。

因此,我認為大模型和初創(chuàng)公司各有優(yōu)缺點。

Sophie:所以短期內(nèi),有足夠的市場空白和增量機會避免太激烈的競爭;但長期來看,差異化將尤為重要。俞舟教授也從企業(yè)級應(yīng)用的角度,進一步強調(diào)了應(yīng)用層中立性的價值。

俞舟:中立第三方平臺,如我們這類平臺,在推進相關(guān)事務(wù)時往往更容易、更快速。因為誰也不知道未來是否與OpenAI形成綁定關(guān)系,各方普遍不愿與任何單一公司建立深度綁定關(guān)系,都希望保留備選方案。大企業(yè)通常都要做Multi cloud,那么為什么要跟AWS綁定、用它的框架?萬一它突然不行了,需要更換,我該怎么辦呢?我們這類中立平臺,恰恰為這種需求提供了可能。

Sophie:那么具體而言,Agent創(chuàng)業(yè)公司應(yīng)該如何避免與大模型公司正面競爭呢?高寧給出了一個很實際的建議,那就是——去做大模型公司不會做的臟活、累活。

高寧:這一邏輯更適用于垂直領(lǐng)域 Agent。以VI為例,它也傾向于與Harvey等垂直應(yīng)用合作而非自主開發(fā),背后有兩點核心考量:首先數(shù)據(jù)壁壘上,完全掌握各公司的私有數(shù)據(jù)幾乎不可行;其次,打通工作流需要深度理解用戶工作流程、上下游關(guān)系和系統(tǒng)架構(gòu)等細節(jié),這類基礎(chǔ)性事務(wù)性工作,對當前聚焦通用人工智能(AGI)或模型基礎(chǔ)能力提升的公司而言,并非首選。

另一方面,對于通用型產(chǎn)品而言,這也存在一定的風(fēng)險。無論是文生圖應(yīng)用還是Agent相關(guān)產(chǎn)品,它們不太可能完全取代現(xiàn)有市場,所有用戶都轉(zhuǎn)向ChatGPT。對此,應(yīng)用型產(chǎn)品的破局路徑可能在于:針對核心用戶群體,將產(chǎn)品形態(tài)逐步升級為基于工作流的SaaS工具;或者積極與大客戶合作,提供定制化解決方案。我相信,不少初創(chuàng)公司已經(jīng)意識到了,并且我也觀察到一些公司正在積極調(diào)整策略,鞏固自身的競爭力。

Sophie:這是一個接地氣的建議。垂直行業(yè)理解、私有數(shù)據(jù)處理、流程打通、定制解決方案,這些看似瑣碎但又必不可少的工作,恰恰是創(chuàng)業(yè)公司的機會所在。

Chapter 3.4 盈利邏輯:先談效果,再談成本

Sophie:最后,我們來聊一個很現(xiàn)實的問題:Agent由于需要多輪交互和調(diào)用工具,往往消耗大量tokens,這會不會帶來嚴重的成本壓力?對此,HeyBoss AI創(chuàng)始人曉音的回答很有意思。

曉音:我們以結(jié)果為導(dǎo)向。小白用戶的比價邏輯在于:比如,過去雇傭一個涵蓋設(shè)計、文案、SEO等崗位的巴基斯坦工程師團隊,費用可能高達數(shù)千美元。而我們的服務(wù)無論價格多高,都不會超過該團隊成本;無論交付多慢,也不會比該團隊效率更低。因此,用戶對我們的預(yù)期核心在于 “交付結(jié)果”,只要能達成這一點,價格和速度已足夠讓我驚艷。

Sophie:在專業(yè)服務(wù)領(lǐng)域,效果才是王道;相比傳統(tǒng)的人力成本,Agent的token開銷可能算是小問題了。

通過這些商業(yè)視角的分享,我們看到Agent創(chuàng)業(yè)公司既面臨挑戰(zhàn),也有不少機遇。它們可以通過新數(shù)據(jù)、深度行業(yè)理解和端到端服務(wù)來建立自己的壁壘,同時謹慎處理與大模型公司的關(guān)系,尋找互補而非競爭的定位。

04 哲學(xué)與未來:Agent時代的深層思考與展望

Sophie:講到這里,我想把話題引向一個更宏觀的層面。技術(shù)發(fā)展從來不僅僅是技術(shù)本身的事,它往往會帶來深遠的社會影響。隨著Agent技術(shù)的普及,它可能會重塑人與機器的關(guān)系,甚至影響社會結(jié)構(gòu)。接下來,讓我們一起來聽聽嘉賓們對Agent時代的哲學(xué)思考和未來展望。

Chapter 4.1 用戶愿景:構(gòu)建AI原生環(huán)境,解放人類雙手

Sophie:首先,我們來聽聽用戶對未來Agent形態(tài)的期待。Kolento分享了他對Agent與人交互方式演變的一些思考。

Kolento:傳統(tǒng)的AI工作流程是:人類先為AI搭建好一步步的操作指令,然后AI執(zhí)行操作并給出響應(yīng),最后由人類查看結(jié)果。在這個過程中,人類實際上有兩個審核點:一個是在搭建過程之中進行審核;另一個是在AI給出結(jié)果之后,對結(jié)果進行審核,審核完后再返回第一步進行修改。這樣有點麻煩,因為需要檢查兩次。

但我更傾向于認為,審核的次數(shù)可能不會減少,但方式有所變化。未來的Agent應(yīng)該在第一步就對齊你的價值觀、記憶以及所有偏好——不僅僅是行為上,而是對齊用戶整個人,從而用戶可以放手讓AI在識別清楚意圖之后完成所有任務(wù)。那么,僅在出現(xiàn)一些高危或者極端情況時,Agent才會來找用戶進行確認。

這種形態(tài)我在Rapid這款產(chǎn)品上看到了,它讓我有這種Aha moment。輸入請求時,它不會每一步都要求用戶確認。而如果使用Manus、Winserve時不開啟自動模式,每一步都得確認——其實很多步驟是不需要確認的。然而,“工作流程”也許不會被淘汰,因為很多東西終究需要人來設(shè)計好——人的一個優(yōu)勢在于足夠穩(wěn)定、足夠可被信任。

Sophie:這個從"流程搭建+分布結(jié)果審核"到"價值觀對齊+放手去做"的轉(zhuǎn)變趨勢,代表了一種信任模式的根本變化。這種根本變化需要的不僅僅是Agent本身能力的進步。鴨哥從更廣泛的社會適配角度,討論了在他看來對于賦能Agent有關(guān)鍵影響的環(huán)境因素。

鴨哥:AI到底能夠在人類的社會中、在我們的日常工作中發(fā)揮多少作用,在很大程度上取決于我們本身的“AI友好程度”,或者說“AI原生程度”,就像剛才說的蒸汽機的例子一樣,如果我們能圍繞蒸汽機來構(gòu)建船舶的整體工作方式,那么這很可能成為實現(xiàn)工作流程最優(yōu)化的關(guān)鍵。

從數(shù)字世界的視角來看,即便AI沒有物理世界的隔閡,在數(shù)字領(lǐng)域仍面臨諸多挑戰(zhàn),原因在于許多事物并非“AI原生”的。例如,當我們編寫一段代碼或一個庫希望他人使用,或開發(fā)產(chǎn)品期待用戶采納時,當前產(chǎn)品說明書或文檔大多面向人類設(shè)計——內(nèi)容零散且因人類認知局限(如閱讀速度慢)被拆分為多頁面,需要用戶自行點擊超鏈接瀏覽。但AI處理文本和代碼毫無障礙,即使一次性提供數(shù)萬字文本,它也能快速處理,因此AI真正需要的是代碼密集、內(nèi)容集中的呈現(xiàn)方式。

試想未來存在兩個庫或軟件:一個具備“AI友好”特性,提供的相關(guān)信息能讓AI(例如Cursor)迅速理解并據(jù)此編寫代碼;另一個則設(shè)計為“人類友好”型。展望未來,我認為前者所擁有的競爭優(yōu)勢將極為顯著。這正是AI原生性在現(xiàn)實中體現(xiàn)的重要價值。

Sophie:鴨哥提出的"AI原生"或"AI友好"的概念讓我想到了城市規(guī)劃中的無障礙設(shè)施,只不過這次是為AI設(shè)計的"無障礙接口"。

Chapter 4.2 人機協(xié)作:人類價值不可替代性

Sophie:AI能力的快速進化一方面激動人心,另一方面,越來越多的人開始關(guān)心在AI跟前,人應(yīng)該扮演怎樣的角色,又有哪些AI難以替代的價值。Kolento就表達了這樣的憂慮。

Kolento:我們與機器之間的交互界面正變得越來越“薄”——交互的層次在減少,更趨近于直接對話。以Google Search為例,用戶發(fā)出一個query,系統(tǒng)返回一個response,這種交互模式在一定程度上是相對平等的,盡管系統(tǒng)會提供多個結(jié)果供選擇,但整體結(jié)構(gòu)依然清晰。

然而,當我們與GPT這類模型交互時,就變得“無邊界”了。對話可以持續(xù)進行直到token耗盡。你提出一個請求,模型可能生成一段長篇的回復(fù);或者,你給一個更復(fù)雜的任務(wù),Manus可能運行80分鐘才能完成。那你的意義在哪呢?你只是給這種高層引導(dǎo),那未來是不是你也可以被替代?

Sophie:"你的意義在哪",這個問題直指人類存在的本質(zhì);面對這種擔憂,新琦提出了她對人類創(chuàng)造價值的理解。

新琦:我認為我依然是那個能夠首先形成想法、提供指令、精雕細琢、保障成品的人,而AI是我的一個合伙人,我需要它給我出力氣。

在音頻領(lǐng)域,真正具有價值的內(nèi)容,往往并非那些結(jié)構(gòu)化、易于被AI獲取的信息,因為這類信息無法構(gòu)成增量價值。價值更多體現(xiàn)在兩個方面:一是在某個特定領(lǐng)域擁有深度,且尚未被AI消化的商業(yè)洞察或?qū)W術(shù)研究;二是那些源自個人生活、未以結(jié)構(gòu)化形式上傳至互聯(lián)網(wǎng)的信息。此外,以我們的播客節(jié)目為例,我們?nèi)恢鞑ド硖幉煌瑫r區(qū)、處于人生不同階段,我們的討論通常來說是更立體、更多元,并且更有火花碰撞的。我認為在AI時代,我們要不斷鼓勵觀點的碰撞和認知的迭代,而這往往是與AI合作難以實現(xiàn)的。

Sophie:增量信息、真實體驗和差異化觀點碰撞,這三點非常精準地點出了人類在內(nèi)容生產(chǎn)中的獨特價值。而鴨哥則從人與AI的工作關(guān)系角度,提出了一個有啟發(fā)性的觀點。

鴨哥:我們可以把AI想象成一個團隊成員,而不僅僅是工具。這意味著我們與AI之間的關(guān)系正在發(fā)生轉(zhuǎn)變。過去,當我們談?wù)摴ぞ撸ū热缏萁z刀或汽車)時,通常會說“我用螺絲刀”或“我開車”,但不會說“我把某項任務(wù)委托給汽車”。但當我們說“這件事交給AI來做”時,大家覺得非常自然。這正是AI與傳統(tǒng)工具的不同之處——它能做的事情越來越多,因此我們與它的關(guān)系更趨近于領(lǐng)導(dǎo)和下屬模式。這就意味著我們的核心競爭力正從過去“如何使用計算器”這樣的技能,轉(zhuǎn)變?yōu)椤叭绾喂芾鞟I”。這是一個重大但常被忽視的問題,因為擅長管理人的人非常少。

管理本身是一門博大精深的學(xué)問,需要大量的培訓(xùn)和學(xué)習(xí)。管理AI并非像使用螺絲刀那樣,拿到說明書看一遍就會了,而是需要具備管理能力才能真正用好它,這是另一個我們需要做好的思維轉(zhuǎn)變。

Sophie:把AI視為團隊成員而非工具,這種思維轉(zhuǎn)變可能真的會重新定義人機關(guān)系。我們需要學(xué)習(xí)的不再是"如何使用工具",而是"如何管理AI"。最后,Kolento還強調(diào)了人類在價值判斷上的不可替代性。

Kolento:從哲學(xué)層面講,我認為AI無法替代人類進行價值判斷。這也是為什么我不認為AI能勝任法官的原因。我不放心將價值判斷交給AI,一部分原因在于它的“黑盒”特性——我們對它的運作機制不夠了解。即便未來我們能夠完全理解它,其可能表現(xiàn)出的“過于全能”特性,也讓我們不禁思考:人類自身的價值與價值觀在哪?AI、Agent的價值觀終究是由其創(chuàng)造者所決定的。畢竟,我們觀察到GPT和Claude在行為上存在本質(zhì)差異,這很可能源于它們訓(xùn)練數(shù)據(jù)的差異。

Sophie:AI可能越來越擅長“怎么做”,但“做什么”和“為什么這么做”或許仍然需要來自人類的答案。

Chapter 4.3 Agent時代:倫理治理與社會系統(tǒng)

Sophie:除了人機關(guān)系,Agent時代的社會結(jié)構(gòu)也值得我們思考。互聯(lián)網(wǎng)2.0時代,Google、Facebook等中心化平臺掌控了絕大多數(shù)用戶流量和內(nèi)容分發(fā),一方面創(chuàng)造了巨大的效率提升和企業(yè)盈利,另一方面也造就了不少問題。那么在AI和Agent時代,我們是不是有機會走出一條不一樣的路?我們每個人獨特的需求和價值觀是否能充分得到AI Agent的個性化尊重?Kolento對此有著自己的洞見。

Kolento:我之前曾寫過一個片段,提到了計算機發(fā)展史中“分久必合,合久必分”的規(guī)律。很多人認為AI或Agent的出現(xiàn)是整合的趨勢,但實際上,Agent本身還是在分散。例如,要實現(xiàn)一個完整的Agent部署,即便你使用Defi構(gòu)建了工作流并將其嵌入編碼,最終部署仍需依賴多種工具——這看似在整合,但這些工具本身又成為了碎片化的一部分。

如果回看每一段歷史,你會發(fā)現(xiàn)整合都是以犧牲個性化為代價的。因此我開始想:什么東西應(yīng)該堅持個性化,什么東西又是我們不該放棄的。我認為,人的主體性絕對不能放棄。然而我們與機器之間的交互界面卻變得越來越“薄”,這讓我很擔心人的價值所在。

我認為需要個人專屬的大模型。當前所有主流AI如GPT、Claude、Gemini等都屬于中心化模式。正如“想要打敗魔法,唯有魔法本身”,要對抗中心化,或許需要一種“個人化的中心化”——賦予每個人可擁有、可遷移的AI。因此我非常關(guān)心AI如何與人對齊,以及如何實現(xiàn)負責任的AI發(fā)展。如果以硅谷的兩派觀點作比喻,我更傾向于杰弗里·辛頓(Geoffrey Hinton)的路線,而不是薩姆·奧爾特曼(Sam Altman)。

Sophie:“用魔法打敗魔法”,充分個性化、個人可擁有、可遷移的AI Agent或許能讓我們在接近全知全能的中心化AI面前,仍舊能感受到作為個體被聆聽、被尊重的溫度。最后,曉音則從更宏觀的社會學(xué)角度,思考了AI社會可能出現(xiàn)的新型關(guān)系。

曉音:我之前看過一個心理學(xué)研究,說人類與其他物種的本質(zhì)區(qū)別在于:人類能夠組織起大量的人群。很多動物,比如大象,一個族群可能不超過100個或50個,而人類可以組織幾百萬甚至幾千萬人。

那么下一個問題是,AI能不能組織更多AI Agent?能不能像人類一樣,組織幾百萬甚至上千萬的AI Agent去做各種各樣的事情?如果AI能做到這一點,是不是意味著AI可以迸發(fā)出更強大的能力?我認為這種能力是存在的,只是我們可能需要讓AI的語言模型更加強大,它的上下文窗口(context window)更大,工具使用(tool use)更加完善,并且AI的評估(evaluation)能力能夠管理更復(fù)雜的架構(gòu)。

另外,AI與AI Agent之間會不會存在所謂的利益不一致?就像人多總會發(fā)生沖突一樣,AI與Agent之間會不會也“打架”?我覺得其實也會的,因為它們各自對“成功”的判別標準不同,所以存在利益不一致的地方,就像人類一樣。

在這種情況下,如果AI與AI Agent之間發(fā)生沖突,該如何評判誰對誰錯?我們是期待一種類似民主的投票制,由AI Agent進行投票,還是期待一個獨裁的政府,即一個AI CEO說“你們都聽我的,閉嘴”?我覺得我們可能很快就會面臨類似于人類社會架構(gòu)上的問題。

還有一個點是,有可能AI Agent會管理人類,同時人類也會管理一部分AI Agent。

我們現(xiàn)在已經(jīng)發(fā)現(xiàn)了這樣的問題,并正在思考:如何設(shè)計這樣的體系?如何評判AI CEO?如何與它對接?如何讓它提升技術(shù)能力、工作水平?

Sophie:AI之間會不會產(chǎn)生類似人類社會的結(jié)構(gòu)和沖突?人類和AI之間的管理關(guān)系會如何演變?這些問題聽起來像是科幻,但實際上可能已經(jīng)悄然在前沿技術(shù)中萌芽了。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

從技術(shù)落地到哲學(xué)思辨,AI Agent發(fā)展的關(guān)鍵議題

從技術(shù)落地到哲學(xué)思辨,AI Agent發(fā)展的關(guān)鍵議題

文|硅谷101

你或許已在工作中體驗過AI助手的便利,也可能在新聞里見過Agent自動完成復(fù)雜任務(wù)的報道。Agent作為硅谷AI領(lǐng)域最熱門的關(guān)鍵詞之一,各類產(chǎn)品如雨后春筍般涌現(xiàn),它們正以前所未有的速度滲透進我們的工作與生活。IDC認為,2025年,AI Agent將迎來規(guī)模化落地浪潮,其通過智能化任務(wù)處理重構(gòu)標準化作業(yè)流程的潛力備受期待。

然而,一系列關(guān)鍵問題亟待解答:當下的AI Agent究竟能為我們做什么,又存在哪些局限?當硅谷巨頭紛紛布局,創(chuàng)業(yè)公司該如何突圍?更重要的是,當AI從工具進化為 “團隊成員”,人機關(guān)系將如何重構(gòu),人類的獨特價值又將體現(xiàn)在何處?

本期節(jié)目,《硅谷101》邀請到7位來自AI研發(fā)、商業(yè)分析、心理學(xué)等不同領(lǐng)域的嘉賓,由我們的特約研究員、Entrepreneurs of Life主理人Sophie帶領(lǐng)大家從用戶體驗、技術(shù)挑戰(zhàn)、商業(yè)邏輯和社會影響四個維度,展開一場關(guān)于AI Agent的深度對話。以下是這次對話內(nèi)容的精選:

01 用戶視角:理想與現(xiàn)實之差

Chapter 1.1 什么是Agent?從工具到伙伴

Sophie:首先,讓我們從最基礎(chǔ)的問題開始:到底什么是AI Agent?我們發(fā)現(xiàn),不同人的理解還真不一樣。我們先來聽聽一位典型極客的看法。

鴨哥是大型物流軟件公司Samsara的AI應(yīng)用科學(xué)家,也是活躍在開源社區(qū)的AI達人;他在GitHub上魔改Cursor的開源項目獲得了超過五千個星標。在鴨哥看來,AI Agent需要滿足三個必要條件。

鴨哥: 在我看來,Agent需滿足三個必要條件:第一,具備工具使用能力,如調(diào)用搜索引擎搜索或調(diào)用編程語言;第二,擁有自主決策能力,明確獲取任務(wù)后可自主分解任務(wù),并按順序調(diào)用工具參數(shù)以完成最終目標;第三,決策需為多步、自我迭代的動態(tài)過程,即能根據(jù)前一步結(jié)果動態(tài)決定下一步行動,而非工作流式的靜態(tài)固定流程,例如依據(jù)搜索結(jié)果判斷是停止搜索還是更換關(guān)鍵詞深挖。

綜上我認為,滿足“工具調(diào)用”“自主決策”和“多輪迭代”這三個條件以后,才能稱為Agent。

Sophie:鴨哥從技術(shù)視角給出的定義非常清晰;與此同時,另一位非AI技術(shù)背景的嘉賓,在世界500強公司擔任數(shù)據(jù)策略總監(jiān)、業(yè)余身為播客主播的新琦,她對Agent的定義重點在于人與AI的合作關(guān)系。

新琦:從合作視角看,人Agent是真正的甲方與乙方關(guān)系,而非聘用合同工的關(guān)系。與合同工合作需要我們?nèi)ザx問題、拆解關(guān)鍵步驟并檢查交付成果,而真正的甲乙關(guān)系是:乙方作為端到端承接整條流程的系統(tǒng),在關(guān)鍵節(jié)點主動介入、提供決策建議,在接收高層指令后自動執(zhí)行,最終交付成品而非半成品。

Sophie:新琦在采訪過程中提到,她目前使用的Agent產(chǎn)品雖有不少亮點,但離她心目中Agent的標準還有距離。

下面,咱們來聽聽他們各自使用Agent產(chǎn)品驚喜、震撼時刻的場景,以及打動他們的功能或體驗。

鴨哥告訴我們,他從上班寫代碼到下班帶娃都離不開三類Agent的幫忙,讓我們來聽聽看。

Chapter 1.2 Agent的多重驚喜

鴨哥: 我經(jīng)常使用的AI Agent主要分為三類: 教練型、秘術(shù)型和搭檔型。

教練型:比如OpenAI的Deep Research、ChatGPT的O3,主要用于獲取調(diào)研信息、輔助深度思考,我把它當做了解不熟悉領(lǐng)域的窗口。

秘書型:如近期較火的Manus、Devin(均為訂閱工具),適合處理相對簡單的非沉浸式工作。例如哄娃睡覺時,我會讓Manus 基于《白雪公主》故事改編內(nèi)容,融入“好好吃飯”等教育引導(dǎo),再調(diào)用TTS工具生成音頻文件播放——秘書型工具擅長此類任務(wù),能讓我在娃睡前直接播放定制語音哄睡。

搭檔型:我比較喜歡用Cursor、Windsurf等做正經(jīng)的軟件開發(fā)工作,因為它們支持并鼓勵高頻交互,允許我全程參與指導(dǎo):先討論設(shè)計方案,再讓它把一個個小積木搭起來,最后我作為架構(gòu)師再組合這些積木并審計結(jié)果,確保達成開發(fā)目標,更符合科班化、高標準的工作流程。

Sophie:CreateWise是一款我參與內(nèi)測的AI軟件。你只要一鍵上傳音軌,軟件就能直接輸出完整剪輯后的音頻,甚至能提供“哪些地方需要剪輯”的決策建議,以及利用AI模仿聲音擬合結(jié)構(gòu),使語句更清晰,并對修改語句進行高亮顯示,方便用戶對比前后效果。我試用后向開發(fā)團隊提出,你需要給我逐句剪輯的空間,因為有的剪輯是我喜歡的,有的剪輯不是我要的。他們現(xiàn)在已經(jīng)提升這個功能的優(yōu)先級并上線了。

此外,CreateWise能根據(jù)用戶對剪輯的選擇,直接串聯(lián)到“文案生成和宣發(fā)”模塊,針對不同平臺生成相應(yīng)文案,比如為音頻平臺生成shownotes、金句、標題建議。針對YouTube或Instagram等平臺,它還能依據(jù)視頻尺寸比例等細節(jié),生成可以直接發(fā)布的內(nèi)容。

Sophie:這款專注于播客制作場景的產(chǎn)品通過對工作流的深度了解和針對每一環(huán)節(jié)的特定優(yōu)化讓新琦印象深刻。而另一方面,有幾款通用型Agent產(chǎn)品也在一般性任務(wù)的執(zhí)行上,受到了用戶紐約大學(xué)應(yīng)用心理學(xué)系大三學(xué)生Kolento的好評。

Kolento:我說幾個不同的場景。

通用層面,我近期一直使用Manus。前幾天新出現(xiàn)的Genspark Janus Park中,Super Agent模式對我來說比較驚艷,能協(xié)助我完成此前不太想完成的事務(wù)。這兩者的差異之一是用戶體驗:起初,Manus的UI/UX視覺沖擊力最吸引我;Genspark則具備類似將大量圖片、內(nèi)容及鏈接組合的功能,我此前主要用它進行旅游搜索,但它的界面視覺沖擊力不及Manus,在一定程度上降低了我持續(xù)使用的熱情。

另外,從本質(zhì)來看,Genspark和Manus均支持Agent執(zhí)行過程的鏈接分享與回放功能,用戶可以回顧完整對話過程,甚至能基于該上下文延續(xù)對話。同時,它們也都能調(diào)用許多工具。不過,我對它們背后的規(guī)則了解有限,只聽說Manus可能未使用MCP,而是采用CodeAct,但我并不知道Genspark具體內(nèi)部使用的算法或工具。它們都能對任務(wù)做良好的規(guī)劃與拆解,也會調(diào)用很多不同的工具,只是各自設(shè)計的工具可能存在細微差別,因為我感覺Genspark之前在旅游等場景上的表現(xiàn)相當不錯,所以他們可能配備了一些預(yù)設(shè)的旅游搜索工具。

還有一個有趣的差異:Genspark的部分功能可能是Manus尚未具備的,比如“call for me”功能可以幫你打電話、預(yù)約酒店等,當時讓我有一個小的“Aha moment”。

編程層面,我比較喜歡Replit Rapid。我之前用Cursor和Windsurf,但Replit Rapid更像 Agent,能承擔更多角色。

學(xué)術(shù)層面,我近期用Elicit,但它沒有達到我心中Agent的定義。

Chapter 1.3 用戶吐槽大會

Sophie:AI有驚喜點,當然也有槽點。

在聽聽具體槽點之前,我想分享鴨哥一項有意思的洞察,那就是隨著各種Agent產(chǎn)品的不斷發(fā)布,他的槽點在飛速地進化;很多他以前吐槽過的點現(xiàn)在卻吐槽不了了,比如復(fù)雜任務(wù)中工具調(diào)用能力不足、寫作AI味兒太重、上下文窗口不夠長等等,他在近期發(fā)布的產(chǎn)品新版本中都看到了很大程度的改善。所以,用戶今天的槽點和痛點,也將是Agent搭建者下一步重點攻堅的方向。在聽完槽點后,我們緊接著也會聽聽幾位搭建者相應(yīng)的思考和回應(yīng)。先從鴨哥的槽點開始。

鴨哥:當前AI模型的指令遵循能力雖然較以往有顯著提升,但仍然存在不足。以GPT 4.1為例,當我要求它根據(jù)五章提綱先完成1-3章、再續(xù)寫4-5章且明確要求不在1-3章結(jié)尾添加“未完待續(xù)”時,模型還是總以“未完待續(xù)”或“我們下一次再繼續(xù)寫,你還有其他想寫的嗎?”等類似表述收尾。我嘗試了多種提示工程方法,均未解決該問題,最終只好通過逆向思維方法:將模型強制添加的“未完待續(xù)”字符串通過程序替換為空,從而完美地解決了這個問題。但如果AI模型的指令遵循能力足夠完善,就不會出現(xiàn)這些亂七八糟的事情。

第二個槽點是在我使用AI產(chǎn)品的過程中,許多產(chǎn)品仍存在“為了使用AI而使用AI”的現(xiàn)象。例如Claude的Computer Use或OpenAI的Operator,都會用一個例子來展示“我很厲害,可以幫你訂機票,輸入信用卡號,輸入各種信息,幫你點擊預(yù)訂機票的按鈕”。但用戶預(yù)訂機票時最耗時的環(huán)節(jié)并非填寫信息,而是確定出行日期——如果我選擇前一天晚上出發(fā),需要權(quán)衡酒店費用與機票價格、是否能避免早起,后一天出發(fā)需要考慮送孩子上學(xué)的時間、綜合比較酒店加機票總價等。這些最麻煩的選擇和考量才是用戶的核心痛點。因此對AI產(chǎn)品開發(fā)者而言,需要針對用戶實際需求設(shè)計產(chǎn)品,避免為用AI而生硬使用AI。

第三個觀察到的現(xiàn)象是:AI雖然能力強大,但人類社會本質(zhì)上是“人類友好”(human friendly)系統(tǒng),專為人類設(shè)計。因此,許多信息或資源只有人類能夠接觸和獲取,AI則完全無法訪問。

例如在商務(wù)洽談或事務(wù)處理中,無論是公司內(nèi)部討論設(shè)計方案還是外部商務(wù)談判,很多重要決策并沒有正式書面文檔作為依據(jù),而是在非正式場合(如喝咖啡、飯桌上)作出。而AI無法獲取這些存在于人際交流中、尚未被文字記錄的“部落知識”(tribal knowledge)。這并非AI自身的問題——你也不可能要求人們在與客戶飲酒洽談時,攜帶攝像機記錄一切并輸入給AI。這種困境根植于人類社會的運作方式,目前我也不知道該如何解決,但這確實是一個令人感到無奈的方面。當前AI能獲取的信息或許只是冰山一角,大量隱性未記錄的“廢墟信息”仍無法觸及,如果能突破這一限制,AI將實現(xiàn)更廣泛的應(yīng)用場景。

Sophie:Agent不服從指令,為了AI而AI、和缺乏人類世界暗信息——鴨哥的這三個槽點涉及了技術(shù)、產(chǎn)品設(shè)計、和人類社會對AI的環(huán)境局限等種種方面。而新琦則以她的親身體會說明了Agent產(chǎn)品缺乏人情味的問題。

新琦:我現(xiàn)在看到很多Agent或者AI產(chǎn)品所不具備的,就是“真實性”。我們在多人播客里會有笑場,但是比如說我用CreateWise,它會將多人同時發(fā)出的“哈哈哈”視為重復(fù)詞而刪減,僅保留少量“哈哈”。可是在我看來,這才是這個節(jié)目很有意思的地方。或者,多人播客里集體的沉默在很多的AI軟件里會被認為需要壓縮,因為AI覺得要保持一定的信噪比和信息密度輸出。但是,集體沉默很多時候是非常有意思的,比如主播拋出一個問題的時候,如果有3秒沉默,就說明這個問題非常值得探討。這類留白是內(nèi)容深度的體現(xiàn),卻會被AI當作無效信息去除。

當我們在說音頻剪輯的時候,一是語言類型,不同AI產(chǎn)品對中文音頻的識別、轉(zhuǎn)譯及剪輯能力與英文存在顯著差距。二是節(jié)目形式,即單人播客或多人群聊播客:單人播客相對簡單;而多人播客則復(fù)雜得多,核心在于多人播客需依賴多軌處理而非單音軌合并——既要保證聽眾聽清對話內(nèi)容,又需保留搶話時的真實氛圍,這非常考驗手藝人的“手藝活兒”。目前,多數(shù)AI軟件或Agent在這方面能力不足,即便支持多軌上傳,連多軌對齊都很難做到精準。

國內(nèi)市場的風(fēng)險偏好整體低于美國分析師或從業(yè)者。品牌傾向于控制色彩、色號數(shù)量及SKU總量,使得庫存周轉(zhuǎn)長期維持在相對穩(wěn)健的位置上。彩妝品類長期盈利困難,包括資生堂在內(nèi)的許多品牌均承認色彩類產(chǎn)品不賺錢。因此,二級市場在評估彩妝品類時,對一級市場品牌興衰的紅利期心存疑慮,更期待品牌上市后能長期保持穩(wěn)健與可預(yù)期性。尤其在國內(nèi),二級市場機構(gòu)投資者傾向于“先學(xué)挨打再學(xué)打人”,希望品牌控制風(fēng)險,做到SKU可控:哪怕有50個色號,也至少需要明確告知重點生產(chǎn)的是哪些色號,其余則視為品牌建設(shè)的成本。

Chapter 1.4 思維升級:從用戶到共創(chuàng)者

Sophie:面對我的吐槽邀請,有一位嘉賓卻出人意料地吐槽了這個環(huán)節(jié)本身,覺得它代表了用戶對于Agent在心態(tài)上的一種誤區(qū)。這位嘉賓是身為Statsig數(shù)據(jù)科學(xué)家、博主和AI社區(qū)Superlinear Academy發(fā)起人的課代表立正。他是這么說的:

課代表立正:我覺得這個吐槽的做法本身是錯誤的。第一是理解上的錯誤,第二是使用上的錯誤。

理解上的錯誤在于,Agents并沒有魔法,而是由過去的大語言模型、現(xiàn)有工具及協(xié)議逐步搭建而成。因此,指望它在當下就達到完美無缺的狀態(tài)并不現(xiàn)實。人們的心態(tài)往往帶有上一個時代的烙印——過去大多數(shù)工具是圖形用戶界面(GUI),點擊按鈕便就應(yīng)該產(chǎn)生預(yù)期效果,如果按鈕無效,可以直接吐槽。但AI并非如此,所以要學(xué)會如何用好它,才能發(fā)揮它真正的用處。

Sophie:在探索怎么用好Agent工具這一點上,課代表立正曾在他的博客里分享過用Manus反復(fù)嘗試一項任務(wù)15次,終于成功的經(jīng)歷。他說:

課代表立正:如果大家沒有一個學(xué)習(xí)的路徑或改進的路徑,肯定用不好AI。以我分享的Manus為例,它雖然出了14次錯,但第15次成功了,說明它本身具備成功的潛力,問題可能出在我前14次的使用方式上。我該吐槽Manus,還是該反思為什么我自己花了14次迭代才成功,而不是一次就調(diào)教成功呢?這說明我使用AI的能力還有待提高。

對待AI不能沿用普通用戶的心態(tài),而是必須用搭建者的心態(tài)。如果你還是像用戶心態(tài)那樣,今天吐槽產(chǎn)品設(shè)計不足、明天批評功能不完善,會被這個時代落下的。

Sophie:聽了這么多用戶的喜悅和困惑,這些問題從開發(fā)者的角度看又是怎樣的呢?我們把視角轉(zhuǎn)向搭建者,看看他們對用戶提出的痛點有什么回應(yīng),以及他們在技術(shù)和產(chǎn)品上的思考方向。

02 搭建者回應(yīng):技術(shù)攻堅進行時,更是價值觀

Chapter 2.1 預(yù)期管理、指令遵循與人類暗信

2.1.1 用戶預(yù)期管理:AI如職場新人

Sophie:說到痛點,我個人作為Agent用戶的一項體會是,Agent對自身能力邊界似乎沒有清晰的認知,它們時常不知道自己哪些任務(wù)能順利完成,哪些可能會遇到困難、需要和我更多交互,而哪些完全在它的能力之外。這導(dǎo)致Agent不大擅長管理我的預(yù)期,而是無論什么需求都一口答應(yīng),最終結(jié)果卻時有不盡人意。我把這個問題拋給了身為Agent搭建者的曲曉音,她創(chuàng)立的HeyBoss AI今年初剛上線,主打用戶一句話提示詞生成完整網(wǎng)站或APP服務(wù)。曉音分享了她的看法。

曉音:我認為這個問題的核心,首先在于AI Agent背后的語言模型本身還不夠智能,但更反映了工作方式的變革。舉個例子,比如一個特別有才華、但沒有工作經(jīng)驗的清華學(xué)生來公司當實習(xí)生,無論讓ta做什么都自信滿滿,說“沒問題,包在我身上”。然而,ta的實際產(chǎn)出卻不符合預(yù)期,且難以預(yù)判風(fēng)險,或無法有效溝通。隨著工作經(jīng)驗的積累,這位清華學(xué)生才逐漸懂得評估任務(wù)耗時、預(yù)判風(fēng)險并提前同步——這種能力提升源于經(jīng)驗沉淀,而非智商差異。

類比到AI領(lǐng)域,工作5-10年的職場人能精準管理預(yù)期,AI也需要通過處理大量重復(fù)任務(wù)積累經(jīng)驗,從而判斷結(jié)果好壞。核心衡量標準不僅在于AI是否完成任務(wù),更在于用戶是否感知其完成——這有點像清華實習(xí)生的工作成果也需要以老板滿意度為衡量標準:老板滿意了,那才叫真正做好了,否則即使自認為完成了也無效。

我認為相關(guān)的數(shù)據(jù),比如用戶滿意度、任務(wù)完成度、老板滿意度等反饋,更多地掌握在應(yīng)用層的AI Agent開發(fā)者手中,也就是像我們這樣的AI應(yīng)用公司,而不是掌握在OpenAI這類基礎(chǔ)模型提供商那里。預(yù)期的標準本身是由“老板”(用戶)來設(shè)定的。如果我們擁有足夠的數(shù)據(jù),就能判斷預(yù)期是否得到了滿足。當我們?nèi)狈碜浴袄习濉钡臄?shù)據(jù)時,就無法了解他們真正的預(yù)期是什么。

因此,我認為當前AI面臨的最大問題在于:它就像一個沒有工作經(jīng)驗的清華學(xué)生。我們需要為它提供“工作經(jīng)驗”,并給予它來自“老板”的反饋——比如,做得是好還是不好?完成了還是沒完成?打幾分?這樣的話,AI的表現(xiàn)會更加準確。

此外,使用場景需要具備一定聚攏性。部分產(chǎn)品宣稱“無所不能”,業(yè)務(wù)范圍從給孩子訂餐延伸至解決宇宙問題,覆蓋過于寬泛反而導(dǎo)致聚焦不足,用戶評價體系也難以形成特定模式。比如,我們聚焦于做網(wǎng)站和APP從而幫助小企業(yè)主、創(chuàng)業(yè)公司或者營銷部門。每個場景都可以明確評判是否達成了用戶需求及使用目的,由此能積累大量重復(fù)性數(shù)據(jù),從而評估服務(wù)效果。反之,如果場景分散,評判體系將因缺乏統(tǒng)一標準而難以有效建立。

Sophie:曉音的比喻非常生動,將Agent比作一個聰明但缺乏工作經(jīng)驗的實習(xí)生,解釋了需要積累用戶反饋數(shù)據(jù),才能幫Agent建立自身能力與用戶預(yù)期比較的標尺;同時,她也強調(diào)了專注于特定領(lǐng)域可以幫助Agent積累更有價值的反饋。

另一方面,鴨哥前面提到的"Agent不遵守指令",則是另一位搭建者嘉賓重點攻克的議題之一。俞舟是哥倫比亞大學(xué)計算機副教授,她的創(chuàng)業(yè)公司Arklex.AI為新東方、沃爾瑪?shù)绕髽I(yè)級客戶內(nèi)部Agent應(yīng)用開發(fā)提供框架與工具,同時也面向終端用戶提供自營Agent產(chǎn)品。她從技術(shù)層面給出了“如何讓Agent更聽話”的應(yīng)對策略。

2.1.2 指令遵循:評測、防護欄與工作流

俞舟:實際上,Agent并非只有一個或某種單一的東西,而是包含了很多組成部分。比如Guardrails的核心目標是防范各類不良情況,而這一過程相當復(fù)雜。它并非只是一個工具,而是會傳授一套完成任務(wù)的完整最佳方式。而且非常重要的一點是必須開展測試與評估——如果不明確Agent行為的好壞標準,僅憑主觀隨意操作,肯定無法得到理想結(jié)果。我們會根據(jù)它的評測結(jié)果做各種調(diào)整,可以用Agent的工作流來處理這些問題。

Sophie:Evaluation評測、Guardrail防護欄和Workflow工作流這三個關(guān)鍵詞非常值得關(guān)注。在工作流方面,曉音從產(chǎn)品設(shè)計角度,提出了一種具體的解決方案。

曉音:我們也提供了很多工具,不是通過AI來修改,而是讓用戶像改PPT 那樣,圈一下這個字,把它弄大弄小、改個動畫。我們發(fā)現(xiàn)很多情況下,用戶還是希望結(jié)果更可控。他們可能選擇替換字、詞、圖片,或者添加效果,傾向于用PPT的這種傳統(tǒng)方法,而不是AI的方法——因為覺得不太可控。所以,“可能不可控”和“可控但是限制性”的功能都需要。

2.1.3 人類暗信壁壘:場景滲透困境

Sophie:最后,關(guān)于鴨哥提到的“AI缺乏人類暗信息”這個根本性挑戰(zhàn),曉音的看法是:這個問題的確難以短期內(nèi)解決,但它在不同應(yīng)用場景下的嚴重程度是不同的。

曉音:我們工作的性質(zhì)原本就是線上完成的,例如開發(fā)一個網(wǎng)站時,與巴基斯坦的外包公司或發(fā)布平臺上的公司合作。合作方很少與我們進行線下會面,更不會通過握手力度來判斷彼此的契合度,這些對于我們而言并非關(guān)鍵要素。因此,從人際溝通的角度來看,線上線下之間沒有顯著差異。

這恰恰是我們所處賽道比較適合AI來超越人類的一個原因。然而對于某些行業(yè),比如線下服務(wù)領(lǐng)域,或是大型企業(yè)的銷售崗位,很多關(guān)鍵性的工作或決策往往是在高爾夫球場的包廂等非正式、面對面的場合完成的。在這種情況下,AI所能獲取的相關(guān)輸入數(shù)據(jù)確實不足。所以,我認為這更多地取決于該領(lǐng)域Agent本身的特性,以及它所要取代的人類工作的具體性質(zhì)。

Sophie:所以,搭建者們在考慮Agent創(chuàng)業(yè)方向時,應(yīng)用場景對于暗信息的依賴程度或許是需要思考的。

Chapter 2.2 技術(shù)突圍、產(chǎn)品設(shè)計和市場培育

Sophie:除了應(yīng)對這些用戶痛點,我們也很好奇,Agent搭建者們目前還在哪些方向上尋求突破呢?我們的嘉賓們分享了他們在技術(shù)、產(chǎn)品設(shè)計和市場培育三個方面重點攻堅的議題。

2.2.1 技術(shù)攻堅:自我進化與多Agent協(xié)作

Sophie:俞舟教授介紹了她和團隊正在探索的前沿技術(shù)。

俞舟:在我自己的實驗室里,我們也在做一些我認為非常重要、具備創(chuàng)新能力的研究。比如自我糾正和各種各樣的自我學(xué)習(xí)能力。

Sophie:而曉音則透露,他們正在深度挖掘多個Agent協(xié)作的潛力。

曉音:多Agent協(xié)作會越來越普遍。當下討論的核心不是向用戶售賣單個Agent,而是提供一套需多Agent協(xié)同的解決方案。為了提升協(xié)作效能,需要引入AI CEO或AI Leader Agent統(tǒng)籌調(diào)度其他Agent。這可能是一個發(fā)展趨勢,優(yōu)勢在于通過聚合多Agent的能力、多元技能及靈活合作模式,來解決單一Agent或單一技能無法應(yīng)對的復(fù)雜問題。

Sophie:“眾人拾柴火焰高”--這句老話或許對Agent也適用。但俞舟也提醒我們,這條路上還有不少技術(shù)挑戰(zhàn)。

俞舟:當有很多Agent同時在一臺機器上工作時,就會產(chǎn)生問題,如果讓多個Agent分別在不同的分布式系統(tǒng)節(jié)點或不同的機器上工作,又會帶來更多問題。關(guān)于如何更好地、更高效地、低成本地、處理這些問題,同時還要解決很多并發(fā)以及其他各種各樣的問題,我們還有很多工作要做。

Sophie:尤其是在企業(yè)級應(yīng)用中,安全問題將成為最大的技術(shù)挑戰(zhàn)。

俞舟:最大的難關(guān)就是安全。以一個最簡單的系統(tǒng)問題為例——數(shù)據(jù)庫。以前數(shù)據(jù)庫是供人使用的,人有權(quán)限去修改數(shù)據(jù)庫的內(nèi)容。但現(xiàn)在,Agent需要去修改這些內(nèi)容。如果同時有多個Agent要去修改同一個數(shù)據(jù)庫,我們該怎么辦?萬一它們修改后,數(shù)據(jù)庫里的數(shù)據(jù)變得不一致了,甚至需要花大量時間去恢復(fù)原狀,怎么辦?而目前數(shù)據(jù)庫本身無法提供一種既高效又便捷的方式來存儲數(shù)據(jù),并與Agent進行連接。

比如,當兩個Agent交互時,哪些記憶可以分享,哪些不能?還有,數(shù)據(jù)庫需要有g(shù)overnance layer(治理層)——有些Agent可以接觸某些數(shù)據(jù),而有些Agent則不能,這就像人一樣,一旦你存在安全漏洞,沒有相應(yīng)權(quán)限,就不能接觸核心數(shù)據(jù)。此外,還需要區(qū)分哪些是對外接口,哪些是內(nèi)部接口等等。這里面有很多非常具體的工作要做。

2.2.2 產(chǎn)品設(shè)計:行業(yè)經(jīng)驗和用戶洞察

Sophie:除了技術(shù)層面,產(chǎn)品設(shè)計同樣是搭建者們關(guān)注的重點。在這一點上,曉音提出:在大模型實力之上,Agent應(yīng)用還亟需積累具體的行業(yè)經(jīng)驗和用戶洞察。

曉音:大模型的變化有點類似于人的智商水平。大模型更聰明并不代表它在具體技能上更懂行,這是因為掌握一項技能除了需要聰明才智,可能還需要一些行業(yè)的技術(shù)訣竅(know-how),或者是對具體應(yīng)用場景的理解,這些往往依賴經(jīng)驗積累而非單純的智商驅(qū)動。所以對我們來講,這兩者都非常重要。

以具體場景為例:創(chuàng)業(yè)者要做一個公司官網(wǎng),小企業(yè)主想賣課,或者咖啡店需要處理訂單時,僅靠大模型的通用智能遠遠不夠,AI工具還需要精準把握行業(yè)特性,比如了解該行業(yè)的最新運營模式、競爭對手動態(tài)等,最終目標是確保網(wǎng)站和APP切實為業(yè)務(wù)創(chuàng)造商業(yè)價值。

我們需要:第一,了解特定行業(yè);第二,與時俱進地了解行業(yè),跟上行業(yè)變化;第三,讓AI具備一定的品位——更多的是AI本身的設(shè)計能力。即使你自己不懂設(shè)計,但是AI提供的方案要有一定的調(diào)性和個性,并且符合品牌預(yù)期。

這并不一定是大模型越強大,品位就越好。品位的形成更多源于我們的訓(xùn)練過程,也源于設(shè)計這些Agent的人員自身的品位,以及我們對客戶所處行業(yè)的所需品位的理解。這是因為有些客戶無法清晰表述他們期望的品位,他們可能僅僅指出“太亂、太土、不夠直觀”,這些描述都相當模糊。例如,如果這位小企業(yè)主是健身博主,他所說的“土”是什么含義?如果他是一位銷售水電工具的商家,他所說的“土”又是什么含義?如果是一家AI創(chuàng)業(yè)公司,“土”又意味著什么?每個人對“土”的定義是不同的。我們需要深入理解,透過表面現(xiàn)象探尋本質(zhì)。

Sophie:AI的"智商"提高了,但不代表它懂得行業(yè)最新趨勢或者審美標準,這些需要專門的訓(xùn)練和調(diào)整。

2.2.3 市場培育:企業(yè)流程重構(gòu)

Sophie:在市場培育方面,俞舟提出了一項經(jīng)常被技術(shù)人忽視的關(guān)鍵挑戰(zhàn)。

俞舟:當前這個領(lǐng)域似乎被炒得很火,但實際的投資回報率(ROI)并不顯著,在大企業(yè)中的部署應(yīng)用也相對較少。然而,我認為這更多是一個時間問題。因為大企業(yè)的組織結(jié)構(gòu)使其變革和推進新事物通常較為緩慢。技術(shù)本身往往不是最難的,真正的挑戰(zhàn)在于“人”的因素。我們需要重新構(gòu)建他們的工作流程,這實質(zhì)上是在調(diào)整生產(chǎn)關(guān)系,因此需要深入了解企業(yè)并設(shè)法“教育”員工,引導(dǎo)他們更好地利用AI。以上過程需要循序漸進,并非產(chǎn)品一經(jīng)推出就能立刻投入使用。它需要企業(yè)自上而下、以“頂層設(shè)計”的方式,系統(tǒng)性地解決這個問題。

Sophie:“技術(shù)容易,人事困難”——這句話道破了很多技術(shù)創(chuàng)新最終失敗的原因。引導(dǎo)市場和客戶重構(gòu)工作流程和生產(chǎn)關(guān)系往往比開發(fā)技術(shù)本身更具挑戰(zhàn)性。

03 商業(yè)視角:初創(chuàng)企業(yè)競爭指南

Sophie: 聽了這些搭建者的分享,我對Agent從前沿黑科技到進入尋常百姓家需要克服的挑戰(zhàn)有了更立體的理解。那么,這些技術(shù)和產(chǎn)品如何轉(zhuǎn)化為擁有壁壘的長期商業(yè)模式呢?我們切換到商業(yè)視角,一起聽聽來自投資和創(chuàng)業(yè)領(lǐng)域的觀點。

Chapter 3.1 打破SaaS壁壘:高質(zhì)數(shù)據(jù)與客戶關(guān)系

高寧:首先,正如硅谷投資人Sarah Guo在去年年底的一次分享中點明的,當前具備多模態(tài)、強理解與總結(jié)能力的 Agent能產(chǎn)出新的數(shù)據(jù),而這正為打破傳統(tǒng)SaaS的既有格局提供了可能。新興公司所實現(xiàn)的新數(shù)據(jù),其來源已不完全掌握在傳統(tǒng)SaaS公司手中。以醫(yī)療診斷記錄為例:傳統(tǒng)模式下,醫(yī)生手動錄入訪談數(shù)據(jù)至表格。雖然存在很多門診SaaS及病例管理公司,但數(shù)據(jù)掌控權(quán)并不集中在它們手中。如今的語音數(shù)據(jù)經(jīng)AI整理后,生成更新、更準確、更豐富的信息。掌握此類新數(shù)據(jù)的初創(chuàng)公司,其競爭力未必遜于傳統(tǒng)SaaS,因為豐富、高質(zhì)量的數(shù)據(jù)才是核心價值點。

在于渠道與客戶關(guān)系。許多初創(chuàng)公司面臨這一挑戰(zhàn)。如果能服務(wù)高速增長的初創(chuàng)企業(yè),并伴隨其成長為未來的平臺型巨頭乃至上市公司,就能自然構(gòu)建起新的渠道與客戶關(guān)系。從這一點看,傳統(tǒng)公司的優(yōu)勢并非牢不可破。所以我持樂觀態(tài)度。尤其是在外包或傳統(tǒng)服務(wù)驅(qū)動型領(lǐng)域,它們原本依賴人力處理大量數(shù)據(jù)并總結(jié)工作,而Agent或AI的介入能更高效地輸入和輸出結(jié)構(gòu)化、豐富且高價值的結(jié)果。這是初創(chuàng)公司挑戰(zhàn)現(xiàn)有市場格局的一條路徑。

當然,部分反應(yīng)迅速的傳統(tǒng)SaaS公司,特別是仍處于高速增長期的公司(如Salesforce),也具備追趕潛力。許多處于成長階段的SaaS公司,如果能積極探索Agent路徑,同樣有望迎頭趕上。

Sophie: 傳統(tǒng)SaaS積累的數(shù)據(jù)可能在AI時代反而不再那么有價值,而新的數(shù)據(jù)采集和處理方式可能重新洗牌競爭格局。 那么,Agent創(chuàng)業(yè)公司如何建立自己的新護城河呢?這里,高寧強調(diào)了工程能力和產(chǎn)品設(shè)計與運營的重要性。

Chapter 3.2 建立護城河:用戶默契培育

高寧:當前,對模型的理解正轉(zhuǎn)化為工程能力,并應(yīng)用于具體產(chǎn)品之中,這一過程本身相當復(fù)雜,具備相關(guān)能力的人才也較為稀缺。因此,這在某種意義上構(gòu)成了技術(shù)壁壘——無論基于模型的表現(xiàn)進行評估和調(diào)優(yōu),還是對模型本身進行精細調(diào)整,你都需要深刻理解如何運用模型、明確調(diào)整的方向,才能使你的產(chǎn)品呈現(xiàn)更好的效果。

Manus的合伙人張濤曾在極客平臺分享過類似見解,讓我很受啟發(fā)。這其中蘊含著重要的專業(yè)知識和實踐經(jīng)驗,同時也涉及對不同模型的選擇。當前各類大小模型不斷涌現(xiàn),發(fā)展速度和迭代頻率均十分迅速。因此對模型的理解本身,也可以視為一種技術(shù)壁壘。

此外,產(chǎn)品層面的體驗設(shè)計與呈現(xiàn)方式同樣關(guān)鍵,例如如何降低用戶使用門檻?如何優(yōu)化on boarding流程,讓它更順暢?以及如何引導(dǎo)用戶創(chuàng)造更多use case并提升用戶活躍度?這還關(guān)聯(lián)到市場營銷、用戶增長等諸多方面,這些因素在我看來也至關(guān)重要。

所以,我認為現(xiàn)在初創(chuàng)公司所面臨的挑戰(zhàn)正日益嚴峻。然而從另一個角度看,各方面能力的精進都能構(gòu)成其獨特的競爭壁壘。

Sophie:懂得如何調(diào)用和優(yōu)化模型,并將其轉(zhuǎn)化為優(yōu)秀的產(chǎn)品體驗,這本身就是一種稀缺的能力。鴨哥則從了解用戶偏好和使用習(xí)慣的角度,提出了"默契"這個有趣的護城河概念。

鴨哥:最淺顯的護城河或體現(xiàn)在數(shù)據(jù)層面。以Manus或Devin為例,它們具備一項功能:記錄用戶對輸出的糾正,并將這些知識應(yīng)用于后續(xù)的對話中。假設(shè)某公司使用Manus制作PPT,初次生成的版本主色系是綠色。假設(shè)用戶不滿意,要求把主色系改為藍色,這就是一個數(shù)據(jù)積累的例子。當未來該用戶或公司內(nèi)其他成員再次請求制作PPT時,系統(tǒng)能根據(jù)這次數(shù)據(jù)自動采用藍色作為主色系。隨著這類糾正和反饋的持續(xù)累積,用戶與AI之間會逐漸形成一種“默契”。用戶會感受到系統(tǒng)的高度適配性,覺得其“好用”,因為它已了解老板喜歡什么、知道公司內(nèi)部的各種規(guī)章制度,無需用戶反復(fù)糾正。

此時,如果出現(xiàn)一個競爭對手,即使它的技術(shù)實力強大,但由于缺乏對該公司特定內(nèi)部信息的了解,它生成的PPT可能仍會沿用綠色主色系,這可能引發(fā)用戶對它能力的質(zhì)疑。這就是一個非常大的護城河,哪怕它真的很聰明,但用戶也不愿意去用。此時創(chuàng)業(yè)者或產(chǎn)品經(jīng)理就應(yīng)該思考:如何有效利用數(shù)據(jù)構(gòu)建類似的數(shù)字護城河?如何促進用戶與AI之間產(chǎn)生這種默契感?這或許是當下最有效的競爭策略。

Sophie:俗話說“衣不如新,人不如舊”;當Agent競品的技術(shù)水平足夠接近、足夠滿足用戶基本需要時,我們是否也會說,“AI不如舊”呢?曉音還進一步指出,真正的護城河是解決用戶的終極目標,而不只是提供中間步驟。

曉音:幫用戶實現(xiàn)最終目的、把價值鏈做長更難被取代。

我們表面上是在編寫代碼,但實際上,我們的工作是幫助用戶運營他們的業(yè)務(wù)。我們通過我們的軟件、應(yīng)用程序或網(wǎng)站,協(xié)助用戶塑造品牌形象,吸引并留住用戶,最終幫助他們更好地盈利。所以最終來講,一個Agent的目的也應(yīng)是幫助用戶賺錢,而不僅僅是提供一個軟件或工具供他們使用。

在這種情況下,我們需要更深入地了解用戶,尤其是要掌握更多后臺數(shù)據(jù),比如用戶的引流效果如何,他們在網(wǎng)站上停留了多長時間等等。我們需要了解這些方面的數(shù)據(jù)。我們在特定垂直領(lǐng)域做得越深入,我們的不可替代性就越強。

如果我們只是單純停留在設(shè)計和開發(fā)網(wǎng)站,不再考慮用戶是否真的使用、是否實現(xiàn)了轉(zhuǎn)化,那么我們構(gòu)建的護城河就不會很高。相反,如果我們能直接幫助用戶實現(xiàn)最終的盈利目標,我們就更難被取代。

Sophie:這種"價值鏈延伸"的思路值得思考,從做網(wǎng)站到幫助獲客、留存、變現(xiàn),這種全鏈路服務(wù)更難做好,也自然更難被替代。

Chapter 3.3 大模型公司是否擠壓Agent初創(chuàng)公司

Sophie:說到替代,我們不得不面對一個尖銳的問題:OpenAI、Anthropic這些大模型公司自己也在加強Agent能力,它們會不會最終擠壓創(chuàng)業(yè)公司、尤其是通用類Agent公司的生存空間?高寧對此有一個很辯證的看法。

高寧:像現(xiàn)在的 GPT、Deepresearch、Manus或者Genspark,這些通用型的Agent,理論上多少存在一些既競合關(guān)系。但因為它們都在吸引越來越多的新用戶,讓更多的小白用戶了解Agent能做什么事情,所以在中短期內(nèi),我認為這個問題并不大。

長期來看,當模型和模型產(chǎn)品的用戶越來越多時,如果用戶同時使用兩款產(chǎn)品,而這兩款產(chǎn)品表現(xiàn)出的差異并不明顯,那么一定會有一些替代。但對于這種應(yīng)用型的產(chǎn)品,它的好處在于其背后依賴的是一個模型,而且這種依賴是無感知的。也就是說,用戶可以根據(jù)哪個模型表現(xiàn)更好,甚至哪種模型組合的效果更好、成本更低、效率更高來選擇各種各樣的模型。

因此,我認為大模型和初創(chuàng)公司各有優(yōu)缺點。

Sophie:所以短期內(nèi),有足夠的市場空白和增量機會避免太激烈的競爭;但長期來看,差異化將尤為重要。俞舟教授也從企業(yè)級應(yīng)用的角度,進一步強調(diào)了應(yīng)用層中立性的價值。

俞舟:中立第三方平臺,如我們這類平臺,在推進相關(guān)事務(wù)時往往更容易、更快速。因為誰也不知道未來是否與OpenAI形成綁定關(guān)系,各方普遍不愿與任何單一公司建立深度綁定關(guān)系,都希望保留備選方案。大企業(yè)通常都要做Multi cloud,那么為什么要跟AWS綁定、用它的框架?萬一它突然不行了,需要更換,我該怎么辦呢?我們這類中立平臺,恰恰為這種需求提供了可能。

Sophie:那么具體而言,Agent創(chuàng)業(yè)公司應(yīng)該如何避免與大模型公司正面競爭呢?高寧給出了一個很實際的建議,那就是——去做大模型公司不會做的臟活、累活。

高寧:這一邏輯更適用于垂直領(lǐng)域 Agent。以VI為例,它也傾向于與Harvey等垂直應(yīng)用合作而非自主開發(fā),背后有兩點核心考量:首先數(shù)據(jù)壁壘上,完全掌握各公司的私有數(shù)據(jù)幾乎不可行;其次,打通工作流需要深度理解用戶工作流程、上下游關(guān)系和系統(tǒng)架構(gòu)等細節(jié),這類基礎(chǔ)性事務(wù)性工作,對當前聚焦通用人工智能(AGI)或模型基礎(chǔ)能力提升的公司而言,并非首選。

另一方面,對于通用型產(chǎn)品而言,這也存在一定的風(fēng)險。無論是文生圖應(yīng)用還是Agent相關(guān)產(chǎn)品,它們不太可能完全取代現(xiàn)有市場,所有用戶都轉(zhuǎn)向ChatGPT。對此,應(yīng)用型產(chǎn)品的破局路徑可能在于:針對核心用戶群體,將產(chǎn)品形態(tài)逐步升級為基于工作流的SaaS工具;或者積極與大客戶合作,提供定制化解決方案。我相信,不少初創(chuàng)公司已經(jīng)意識到了,并且我也觀察到一些公司正在積極調(diào)整策略,鞏固自身的競爭力。

Sophie:這是一個接地氣的建議。垂直行業(yè)理解、私有數(shù)據(jù)處理、流程打通、定制解決方案,這些看似瑣碎但又必不可少的工作,恰恰是創(chuàng)業(yè)公司的機會所在。

Chapter 3.4 盈利邏輯:先談效果,再談成本

Sophie:最后,我們來聊一個很現(xiàn)實的問題:Agent由于需要多輪交互和調(diào)用工具,往往消耗大量tokens,這會不會帶來嚴重的成本壓力?對此,HeyBoss AI創(chuàng)始人曉音的回答很有意思。

曉音:我們以結(jié)果為導(dǎo)向。小白用戶的比價邏輯在于:比如,過去雇傭一個涵蓋設(shè)計、文案、SEO等崗位的巴基斯坦工程師團隊,費用可能高達數(shù)千美元。而我們的服務(wù)無論價格多高,都不會超過該團隊成本;無論交付多慢,也不會比該團隊效率更低。因此,用戶對我們的預(yù)期核心在于 “交付結(jié)果”,只要能達成這一點,價格和速度已足夠讓我驚艷。

Sophie:在專業(yè)服務(wù)領(lǐng)域,效果才是王道;相比傳統(tǒng)的人力成本,Agent的token開銷可能算是小問題了。

通過這些商業(yè)視角的分享,我們看到Agent創(chuàng)業(yè)公司既面臨挑戰(zhàn),也有不少機遇。它們可以通過新數(shù)據(jù)、深度行業(yè)理解和端到端服務(wù)來建立自己的壁壘,同時謹慎處理與大模型公司的關(guān)系,尋找互補而非競爭的定位。

04 哲學(xué)與未來:Agent時代的深層思考與展望

Sophie:講到這里,我想把話題引向一個更宏觀的層面。技術(shù)發(fā)展從來不僅僅是技術(shù)本身的事,它往往會帶來深遠的社會影響。隨著Agent技術(shù)的普及,它可能會重塑人與機器的關(guān)系,甚至影響社會結(jié)構(gòu)。接下來,讓我們一起來聽聽嘉賓們對Agent時代的哲學(xué)思考和未來展望。

Chapter 4.1 用戶愿景:構(gòu)建AI原生環(huán)境,解放人類雙手

Sophie:首先,我們來聽聽用戶對未來Agent形態(tài)的期待。Kolento分享了他對Agent與人交互方式演變的一些思考。

Kolento:傳統(tǒng)的AI工作流程是:人類先為AI搭建好一步步的操作指令,然后AI執(zhí)行操作并給出響應(yīng),最后由人類查看結(jié)果。在這個過程中,人類實際上有兩個審核點:一個是在搭建過程之中進行審核;另一個是在AI給出結(jié)果之后,對結(jié)果進行審核,審核完后再返回第一步進行修改。這樣有點麻煩,因為需要檢查兩次。

但我更傾向于認為,審核的次數(shù)可能不會減少,但方式有所變化。未來的Agent應(yīng)該在第一步就對齊你的價值觀、記憶以及所有偏好——不僅僅是行為上,而是對齊用戶整個人,從而用戶可以放手讓AI在識別清楚意圖之后完成所有任務(wù)。那么,僅在出現(xiàn)一些高危或者極端情況時,Agent才會來找用戶進行確認。

這種形態(tài)我在Rapid這款產(chǎn)品上看到了,它讓我有這種Aha moment。輸入請求時,它不會每一步都要求用戶確認。而如果使用Manus、Winserve時不開啟自動模式,每一步都得確認——其實很多步驟是不需要確認的。然而,“工作流程”也許不會被淘汰,因為很多東西終究需要人來設(shè)計好——人的一個優(yōu)勢在于足夠穩(wěn)定、足夠可被信任。

Sophie:這個從"流程搭建+分布結(jié)果審核"到"價值觀對齊+放手去做"的轉(zhuǎn)變趨勢,代表了一種信任模式的根本變化。這種根本變化需要的不僅僅是Agent本身能力的進步。鴨哥從更廣泛的社會適配角度,討論了在他看來對于賦能Agent有關(guān)鍵影響的環(huán)境因素。

鴨哥:AI到底能夠在人類的社會中、在我們的日常工作中發(fā)揮多少作用,在很大程度上取決于我們本身的“AI友好程度”,或者說“AI原生程度”,就像剛才說的蒸汽機的例子一樣,如果我們能圍繞蒸汽機來構(gòu)建船舶的整體工作方式,那么這很可能成為實現(xiàn)工作流程最優(yōu)化的關(guān)鍵。

從數(shù)字世界的視角來看,即便AI沒有物理世界的隔閡,在數(shù)字領(lǐng)域仍面臨諸多挑戰(zhàn),原因在于許多事物并非“AI原生”的。例如,當我們編寫一段代碼或一個庫希望他人使用,或開發(fā)產(chǎn)品期待用戶采納時,當前產(chǎn)品說明書或文檔大多面向人類設(shè)計——內(nèi)容零散且因人類認知局限(如閱讀速度慢)被拆分為多頁面,需要用戶自行點擊超鏈接瀏覽。但AI處理文本和代碼毫無障礙,即使一次性提供數(shù)萬字文本,它也能快速處理,因此AI真正需要的是代碼密集、內(nèi)容集中的呈現(xiàn)方式。

試想未來存在兩個庫或軟件:一個具備“AI友好”特性,提供的相關(guān)信息能讓AI(例如Cursor)迅速理解并據(jù)此編寫代碼;另一個則設(shè)計為“人類友好”型。展望未來,我認為前者所擁有的競爭優(yōu)勢將極為顯著。這正是AI原生性在現(xiàn)實中體現(xiàn)的重要價值。

Sophie:鴨哥提出的"AI原生"或"AI友好"的概念讓我想到了城市規(guī)劃中的無障礙設(shè)施,只不過這次是為AI設(shè)計的"無障礙接口"。

Chapter 4.2 人機協(xié)作:人類價值不可替代性

Sophie:AI能力的快速進化一方面激動人心,另一方面,越來越多的人開始關(guān)心在AI跟前,人應(yīng)該扮演怎樣的角色,又有哪些AI難以替代的價值。Kolento就表達了這樣的憂慮。

Kolento:我們與機器之間的交互界面正變得越來越“薄”——交互的層次在減少,更趨近于直接對話。以Google Search為例,用戶發(fā)出一個query,系統(tǒng)返回一個response,這種交互模式在一定程度上是相對平等的,盡管系統(tǒng)會提供多個結(jié)果供選擇,但整體結(jié)構(gòu)依然清晰。

然而,當我們與GPT這類模型交互時,就變得“無邊界”了。對話可以持續(xù)進行直到token耗盡。你提出一個請求,模型可能生成一段長篇的回復(fù);或者,你給一個更復(fù)雜的任務(wù),Manus可能運行80分鐘才能完成。那你的意義在哪呢?你只是給這種高層引導(dǎo),那未來是不是你也可以被替代?

Sophie:"你的意義在哪",這個問題直指人類存在的本質(zhì);面對這種擔憂,新琦提出了她對人類創(chuàng)造價值的理解。

新琦:我認為我依然是那個能夠首先形成想法、提供指令、精雕細琢、保障成品的人,而AI是我的一個合伙人,我需要它給我出力氣。

在音頻領(lǐng)域,真正具有價值的內(nèi)容,往往并非那些結(jié)構(gòu)化、易于被AI獲取的信息,因為這類信息無法構(gòu)成增量價值。價值更多體現(xiàn)在兩個方面:一是在某個特定領(lǐng)域擁有深度,且尚未被AI消化的商業(yè)洞察或?qū)W術(shù)研究;二是那些源自個人生活、未以結(jié)構(gòu)化形式上傳至互聯(lián)網(wǎng)的信息。此外,以我們的播客節(jié)目為例,我們?nèi)恢鞑ド硖幉煌瑫r區(qū)、處于人生不同階段,我們的討論通常來說是更立體、更多元,并且更有火花碰撞的。我認為在AI時代,我們要不斷鼓勵觀點的碰撞和認知的迭代,而這往往是與AI合作難以實現(xiàn)的。

Sophie:增量信息、真實體驗和差異化觀點碰撞,這三點非常精準地點出了人類在內(nèi)容生產(chǎn)中的獨特價值。而鴨哥則從人與AI的工作關(guān)系角度,提出了一個有啟發(fā)性的觀點。

鴨哥:我們可以把AI想象成一個團隊成員,而不僅僅是工具。這意味著我們與AI之間的關(guān)系正在發(fā)生轉(zhuǎn)變。過去,當我們談?wù)摴ぞ撸ū热缏萁z刀或汽車)時,通常會說“我用螺絲刀”或“我開車”,但不會說“我把某項任務(wù)委托給汽車”。但當我們說“這件事交給AI來做”時,大家覺得非常自然。這正是AI與傳統(tǒng)工具的不同之處——它能做的事情越來越多,因此我們與它的關(guān)系更趨近于領(lǐng)導(dǎo)和下屬模式。這就意味著我們的核心競爭力正從過去“如何使用計算器”這樣的技能,轉(zhuǎn)變?yōu)椤叭绾喂芾鞟I”。這是一個重大但常被忽視的問題,因為擅長管理人的人非常少。

管理本身是一門博大精深的學(xué)問,需要大量的培訓(xùn)和學(xué)習(xí)。管理AI并非像使用螺絲刀那樣,拿到說明書看一遍就會了,而是需要具備管理能力才能真正用好它,這是另一個我們需要做好的思維轉(zhuǎn)變。

Sophie:把AI視為團隊成員而非工具,這種思維轉(zhuǎn)變可能真的會重新定義人機關(guān)系。我們需要學(xué)習(xí)的不再是"如何使用工具",而是"如何管理AI"。最后,Kolento還強調(diào)了人類在價值判斷上的不可替代性。

Kolento:從哲學(xué)層面講,我認為AI無法替代人類進行價值判斷。這也是為什么我不認為AI能勝任法官的原因。我不放心將價值判斷交給AI,一部分原因在于它的“黑盒”特性——我們對它的運作機制不夠了解。即便未來我們能夠完全理解它,其可能表現(xiàn)出的“過于全能”特性,也讓我們不禁思考:人類自身的價值與價值觀在哪?AI、Agent的價值觀終究是由其創(chuàng)造者所決定的。畢竟,我們觀察到GPT和Claude在行為上存在本質(zhì)差異,這很可能源于它們訓(xùn)練數(shù)據(jù)的差異。

Sophie:AI可能越來越擅長“怎么做”,但“做什么”和“為什么這么做”或許仍然需要來自人類的答案。

Chapter 4.3 Agent時代:倫理治理與社會系統(tǒng)

Sophie:除了人機關(guān)系,Agent時代的社會結(jié)構(gòu)也值得我們思考。互聯(lián)網(wǎng)2.0時代,Google、Facebook等中心化平臺掌控了絕大多數(shù)用戶流量和內(nèi)容分發(fā),一方面創(chuàng)造了巨大的效率提升和企業(yè)盈利,另一方面也造就了不少問題。那么在AI和Agent時代,我們是不是有機會走出一條不一樣的路?我們每個人獨特的需求和價值觀是否能充分得到AI Agent的個性化尊重?Kolento對此有著自己的洞見。

Kolento:我之前曾寫過一個片段,提到了計算機發(fā)展史中“分久必合,合久必分”的規(guī)律。很多人認為AI或Agent的出現(xiàn)是整合的趨勢,但實際上,Agent本身還是在分散。例如,要實現(xiàn)一個完整的Agent部署,即便你使用Defi構(gòu)建了工作流并將其嵌入編碼,最終部署仍需依賴多種工具——這看似在整合,但這些工具本身又成為了碎片化的一部分。

如果回看每一段歷史,你會發(fā)現(xiàn)整合都是以犧牲個性化為代價的。因此我開始想:什么東西應(yīng)該堅持個性化,什么東西又是我們不該放棄的。我認為,人的主體性絕對不能放棄。然而我們與機器之間的交互界面卻變得越來越“薄”,這讓我很擔心人的價值所在。

我認為需要個人專屬的大模型。當前所有主流AI如GPT、Claude、Gemini等都屬于中心化模式。正如“想要打敗魔法,唯有魔法本身”,要對抗中心化,或許需要一種“個人化的中心化”——賦予每個人可擁有、可遷移的AI。因此我非常關(guān)心AI如何與人對齊,以及如何實現(xiàn)負責任的AI發(fā)展。如果以硅谷的兩派觀點作比喻,我更傾向于杰弗里·辛頓(Geoffrey Hinton)的路線,而不是薩姆·奧爾特曼(Sam Altman)。

Sophie:“用魔法打敗魔法”,充分個性化、個人可擁有、可遷移的AI Agent或許能讓我們在接近全知全能的中心化AI面前,仍舊能感受到作為個體被聆聽、被尊重的溫度。最后,曉音則從更宏觀的社會學(xué)角度,思考了AI社會可能出現(xiàn)的新型關(guān)系。

曉音:我之前看過一個心理學(xué)研究,說人類與其他物種的本質(zhì)區(qū)別在于:人類能夠組織起大量的人群。很多動物,比如大象,一個族群可能不超過100個或50個,而人類可以組織幾百萬甚至幾千萬人。

那么下一個問題是,AI能不能組織更多AI Agent?能不能像人類一樣,組織幾百萬甚至上千萬的AI Agent去做各種各樣的事情?如果AI能做到這一點,是不是意味著AI可以迸發(fā)出更強大的能力?我認為這種能力是存在的,只是我們可能需要讓AI的語言模型更加強大,它的上下文窗口(context window)更大,工具使用(tool use)更加完善,并且AI的評估(evaluation)能力能夠管理更復(fù)雜的架構(gòu)。

另外,AI與AI Agent之間會不會存在所謂的利益不一致?就像人多總會發(fā)生沖突一樣,AI與Agent之間會不會也“打架”?我覺得其實也會的,因為它們各自對“成功”的判別標準不同,所以存在利益不一致的地方,就像人類一樣。

在這種情況下,如果AI與AI Agent之間發(fā)生沖突,該如何評判誰對誰錯?我們是期待一種類似民主的投票制,由AI Agent進行投票,還是期待一個獨裁的政府,即一個AI CEO說“你們都聽我的,閉嘴”?我覺得我們可能很快就會面臨類似于人類社會架構(gòu)上的問題。

還有一個點是,有可能AI Agent會管理人類,同時人類也會管理一部分AI Agent。

我們現(xiàn)在已經(jīng)發(fā)現(xiàn)了這樣的問題,并正在思考:如何設(shè)計這樣的體系?如何評判AI CEO?如何與它對接?如何讓它提升技術(shù)能力、工作水平?

Sophie:AI之間會不會產(chǎn)生類似人類社會的結(jié)構(gòu)和沖突?人類和AI之間的管理關(guān)系會如何演變?這些問題聽起來像是科幻,但實際上可能已經(jīng)悄然在前沿技術(shù)中萌芽了。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。
主站蜘蛛池模板: 京山县| 永康市| 勃利县| 平乐县| 景德镇市| 保山市| 镇沅| 长顺县| 南丰县| 阿坝县| 中牟县| 六枝特区| 昂仁县| 东山县| 新蔡县| 江达县| 博野县| 祁门县| 沁阳市| 延津县| 龙口市| 松滋市| 衡东县| 冷水江市| 大丰市| 安庆市| 安溪县| 石家庄市| 青浦区| 鄂托克前旗| 营山县| 临武县| 益阳市| 东阳市| 鄯善县| 西安市| 吉水县| 漠河县| 红桥区| 香格里拉县| 东至县|