文 | 壹娛觀察 大娛樂(lè)家
當(dāng)字節(jié)跳動(dòng)的即夢(mèng)AI與快手的可靈AI在國(guó)內(nèi)文生視頻賽道激烈廝殺時(shí),大洋彼岸的谷歌 I/O 2025卻悄然為這場(chǎng)競(jìng)爭(zhēng)指明了新的方向。
此刻,國(guó)內(nèi)的AI文生視頻產(chǎn)品無(wú)疑迎來(lái)了雙雄爭(zhēng)霸的格局。
一方面,即夢(mèng)AI在字節(jié)跳動(dòng)網(wǎng)傳120億美元下注AI的激進(jìn)投資戰(zhàn)略里占據(jù)重要位置,且實(shí)現(xiàn)了用戶飛速增長(zhǎng);另一方面,可靈AI自商業(yè)化以來(lái)至今年2月累計(jì)營(yíng)業(yè)收入超1億元,在全球的文生視頻性能評(píng)測(cè)中表現(xiàn)亮眼,成為快手2024年度財(cái)報(bào)里的重點(diǎn)筆墨。
即夢(mèng)、可靈展開(kāi)多方合作
然而,在全球眼光審視市場(chǎng)之下,谷歌5月21日所發(fā)布的Veo 3.0、Flow AI電影制作工具,展現(xiàn)的不僅是技術(shù)突破,更是一套完整的生態(tài)化商業(yè)思路,本質(zhì)上揭示了一個(gè)更深層的問(wèn)題——單純的模型能力競(jìng)爭(zhēng)可能正在走向死胡同。
真正的護(hù)城河不在于某個(gè)技術(shù)的領(lǐng)先,而在于如何構(gòu)建完整的AI驅(qū)動(dòng)生態(tài)系統(tǒng)。當(dāng)國(guó)內(nèi)兩家平臺(tái)還在比拼性能指標(biāo)或用精雕細(xì)琢的成品展示時(shí),谷歌已經(jīng)開(kāi)始思考如何讓AI驅(qū)動(dòng)的文生視頻能力融入用戶的完整工作流程。
這種差距,正是國(guó)內(nèi)AI視頻生成賽道需要正視的現(xiàn)實(shí)。
01 AI視頻賽道走向“生態(tài)為王”
谷歌I/O 2025最令人印象深刻的,并非某個(gè)單一產(chǎn)品的性能提升,而是其展現(xiàn)出的系統(tǒng)性思維。
Veo 3首次實(shí)現(xiàn)原生音頻生成——街道交通噪音、鳥(niǎo)兒歌唱、甚至角色對(duì)話。這一突破體現(xiàn)了谷歌對(duì)多模態(tài)融合的深度理解。
更值得關(guān)注的是,谷歌并未將Veo 3.0作為獨(dú)立產(chǎn)品推出,而是深度整合到名為Flow的AI電影制作工具中。
Flow匯集了Veo、Imagen和Gemini三大模型,讓用戶無(wú)縫創(chuàng)建電影片段、場(chǎng)景和故事。
其背后是谷歌的全新思考——用戶需要的不是孤立的生成工具,而是完整創(chuàng)作流程的一體化解決方案。從鏡頭控制到場(chǎng)景構(gòu)建,每個(gè)功能模塊都指向同一目標(biāo):讓AI融入創(chuàng)作者的工作流程,而非簡(jiǎn)單替代某個(gè)環(huán)節(jié)。
這種生態(tài)化思維在訂閱體系設(shè)計(jì)中體現(xiàn)得更明顯。
全新打造的谷歌AI Ultra定價(jià)249.99美元/月,不僅擁有全套AI技能包,同時(shí)還包含YouTube Premium、30TB云存儲(chǔ),以及早期訪問(wèn)Agent Mode——用戶只需陳述目標(biāo),Gemini就會(huì)智能協(xié)調(diào)調(diào)用工具以實(shí)現(xiàn)。
2025年Google I/O大會(huì)
谷歌當(dāng)前的商業(yè)化思路展現(xiàn)出三個(gè)關(guān)鍵特點(diǎn):
將基礎(chǔ)模型能力進(jìn)行生態(tài)化釋放。Veo 3.0的原生音頻生成讓視頻創(chuàng)作更完整沉浸。用戶通過(guò)簡(jiǎn)單文本提示同時(shí)生成視聽(tīng)內(nèi)容,創(chuàng)作效率出現(xiàn)質(zhì)的飛躍。
圍繞訂閱體系對(duì)AI產(chǎn)品重新定價(jià)。谷歌 AI Ultra的高價(jià)格是為整個(gè)AI生態(tài)系統(tǒng)重新定價(jià),將AI工具從效率提升工具升級(jí)為專業(yè)創(chuàng)作者的核心生產(chǎn)力平臺(tái)。
技術(shù)護(hù)城河的系統(tǒng)性構(gòu)建。通過(guò)深度整合多個(gè)基礎(chǔ)大模型并嵌入各個(gè)常規(guī)產(chǎn)品,谷歌形成了難以被單點(diǎn)突破的技術(shù)壁壘。
總結(jié)而來(lái),生態(tài)化思維將競(jìng)爭(zhēng)從技術(shù)性能比拼轉(zhuǎn)向用戶價(jià)值的深度挖掘。
當(dāng)谷歌能提供從內(nèi)容生成到編輯制作的全流程解決方案時(shí),用戶遷移成本大幅提升,平臺(tái)商業(yè)價(jià)值得到根本重塑。
更重要的是,谷歌展現(xiàn)的不僅是當(dāng)前產(chǎn)品能力,更是對(duì)AI發(fā)展趨勢(shì)的前瞻判斷。未來(lái)競(jìng)爭(zhēng)將不再局限于內(nèi)容生成,而是擴(kuò)展到AI如何幫助用戶完成復(fù)雜的跨領(lǐng)域任務(wù)。
02 國(guó)內(nèi)雙雄的進(jìn)階之路:從拼技術(shù)到比生態(tài)
面對(duì)谷歌 I/O 2025展現(xiàn)出的技術(shù)能力與生態(tài)化思維,正在國(guó)內(nèi)市場(chǎng)進(jìn)行激烈競(jìng)爭(zhēng)的可靈AI和即夢(mèng)AI都面臨著戰(zhàn)略轉(zhuǎn)型的關(guān)鍵節(jié)點(diǎn)。
兩家平臺(tái)雖然在技術(shù)能力上可以說(shuō)各有千秋,但在生態(tài)化布局和商業(yè)模式創(chuàng)新方面,仍有巨大的提升空間。
一是對(duì)多模態(tài)能力的全盤整合。
即夢(mèng)AI 3.0以電影級(jí)畫(huà)質(zhì)和2K分辨率輸出見(jiàn)長(zhǎng),其VeOmni框架和增強(qiáng)型Goku AI模型展現(xiàn)了字節(jié)跳動(dòng)的技術(shù)實(shí)力;可靈AI 2.0引入了多模態(tài)視覺(jué)語(yǔ)言(MVL)概念,通過(guò)TXT和MMW實(shí)現(xiàn)更精準(zhǔn)的創(chuàng)意表達(dá)。
可靈(左)即夢(mèng)(右)截圖
而相比谷歌將Veo、Imagen、Gemini三大模型深度融合的做法,兩家平臺(tái)的整合程度還有待提升。
即夢(mèng)AI應(yīng)該在主打高效生成的海草S2.0與更強(qiáng)調(diào)敘事創(chuàng)作的PixelDance P2.0 Pro等多個(gè)專業(yè)文生視頻模型之間建立更緊密的協(xié)同關(guān)系;
可靈AI則該考慮將其視頻生成能力與可圖2.0的圖像生成能力進(jìn)行更深層次的融合;
最關(guān)鍵的是,兩家平臺(tái)都應(yīng)該將音頻生成能力的研發(fā)提上日程。Veo 3.0的原生音頻生成不僅提升了視頻內(nèi)容的完整性,更為沉浸式內(nèi)容創(chuàng)作開(kāi)辟了新可能性。
谷歌Veo 3實(shí)現(xiàn)音畫(huà)同步生成功能
二是如何構(gòu)建訂閱體系以實(shí)現(xiàn)技術(shù)泛用。
目前,即夢(mèng)AI的周活躍用戶在幾個(gè)月內(nèi)增長(zhǎng)近三倍,顯示出強(qiáng)勁的用戶吸引力;可靈AI主要通過(guò)API調(diào)用和企業(yè)合作實(shí)現(xiàn)變現(xiàn),自商業(yè)化以來(lái)至今年2月累計(jì)營(yíng)業(yè)收入超1億元。
然而,兩家平臺(tái)都缺乏面向個(gè)人用戶的系統(tǒng)性訂閱產(chǎn)品。谷歌 AI Ultra 249.99美元/月的定價(jià)策略提供了重要參考:AI工具的價(jià)值不應(yīng)該僅僅基于生成次數(shù)或質(zhì)量水平,而應(yīng)該基于其為用戶創(chuàng)造的完整價(jià)值鏈。
即夢(mèng)AI可以利用其精準(zhǔn)英文字體排版能力和全球發(fā)布策略,針對(duì)不同區(qū)域市場(chǎng)開(kāi)發(fā)差異化的訂閱產(chǎn)品;
可靈AI可以考慮推出包含創(chuàng)作工具、素材庫(kù)、分發(fā)渠道、甚至變現(xiàn)支持的一體化訂閱服務(wù)。
Veo 3.0生成的視頻
三是對(duì)創(chuàng)作生態(tài)的構(gòu)建完善程度。
字節(jié)千億級(jí)別的AI基礎(chǔ)設(shè)施投資和大模型技術(shù)投入為即夢(mèng)AI提供了能力不俗的技術(shù)底座,但如何將這種技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為生態(tài)優(yōu)勢(shì),依然是即夢(mèng)AI需要重點(diǎn)思考的問(wèn)題。即夢(mèng)AI或許還需要進(jìn)一步依靠TikTok的全球創(chuàng)作生態(tài),去構(gòu)建一個(gè)面向國(guó)際創(chuàng)意社區(qū)的完整創(chuàng)作鏈條。
快手平臺(tái)擁有龐大的內(nèi)容創(chuàng)作者群體和完善的商業(yè)化體系,這為可靈AI構(gòu)建生態(tài)閉環(huán)提供了得天獨(dú)厚的條件。接下來(lái),可靈AI可以學(xué)習(xí)谷歌Flow的設(shè)計(jì)思路,開(kāi)發(fā)一個(gè)深度整合快手生態(tài)的創(chuàng)作工具,讓用戶從創(chuàng)意構(gòu)思、內(nèi)容生成、到發(fā)布推廣、商業(yè)變現(xiàn)形成完整閉環(huán)。
可靈AI 2.0宣傳圖
最后則是AI Agent的發(fā)展路徑。
谷歌Agent Mode的推出預(yù)示著各類型的AI工具正在從被動(dòng)的內(nèi)容生成器向主動(dòng)的工作流助手轉(zhuǎn)變,文生視頻也不例外。
對(duì)于兩家平臺(tái)而言,這意味著需要將文生視頻生成能力與更廣泛的創(chuàng)作和商業(yè)流程進(jìn)行整合。
即夢(mèng)AI的多模型調(diào)用策略為開(kāi)發(fā)AI Agent提供了良好基礎(chǔ),但需要在模型間建立更智能的協(xié)調(diào)機(jī)制;可靈AI的多圖參考功能已經(jīng)展現(xiàn)了一定的智能化水平,但距離真正的泛用型AI助手還有明顯差距。

即夢(mèng)AI官網(wǎng)
當(dāng)然以上這些都還是建立在最底層大模型能力的持續(xù)進(jìn)步之上。當(dāng)下谷歌能夠?qū)崿F(xiàn)如此強(qiáng)大的多模態(tài)整合能力,與其豐富的數(shù)據(jù)資源和先進(jìn)的訓(xùn)練方法密不可分。
字節(jié)跳動(dòng)與快手,雖然都擁有海量的用戶生成內(nèi)容,但如何更好地利用這些數(shù)據(jù)資源,提升基礎(chǔ)大模型的泛化能力和應(yīng)用效果,仍需要持續(xù)探索。
尤其是對(duì)快手而言,一開(kāi)始便選擇強(qiáng)攻文生視頻這一支線雖然取得一定先發(fā)優(yōu)勢(shì),但需要對(duì)基礎(chǔ)大模型能力的強(qiáng)化提前加以重視,以防在某一時(shí)刻成為其整個(gè)產(chǎn)品生態(tài)的軟肋。
從谷歌 I/O 2025的發(fā)布來(lái)看,AI視頻生成賽道正在經(jīng)歷從技術(shù)驅(qū)動(dòng)向生態(tài)驅(qū)動(dòng)的根本性轉(zhuǎn)變。對(duì)于可靈AI和即夢(mèng)AI而言,這既是挑戰(zhàn)也是機(jī)遇——誰(shuí)能更快地完成從單點(diǎn)技術(shù)優(yōu)勢(shì)向系統(tǒng)性生態(tài)優(yōu)勢(shì)的轉(zhuǎn)變,誰(shuí)就能在下一輪競(jìng)爭(zhēng)中占據(jù)主導(dǎo)地位。
而谷歌這次的發(fā)布,無(wú)疑為這種轉(zhuǎn)變提供了無(wú)比清晰的路線圖。