簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

商業頭條No.61 | DeepSeek風暴席卷AI產業鏈

掃一掃下載界面新聞APP

商業頭條No.61 | DeepSeek風暴席卷AI產業鏈

DeepSeek既是對手的威脅,也是行業的東風。2025年伊始,它的影響已經席卷整個AI產業鏈。

圖片來源:視覺中國

界面新聞記者 | 伍洋宇 李彪

界面新聞編輯 | 劉方遠

蛇年除夕夜那晚,硅基流動創始人袁進輝沒有留在飯桌上,而是在抓緊時間跟技術團隊開會,為了盡快解決DeepSeek模型在國產芯片上的適配問題。

經過三天三夜的加班加點,他們聯合華為和DeepSeek,趕在2月1日上線了基于國產芯片服務的DeepSeek-V3和DeepSeek-R1。此時,距離DeepSeek AI智能助手同時登頂中美兩國App Store免費應用榜,還不到一周時間。

DeepSeek登頂AppStore排行榜。來源:東方IC

也許是巧合,最近三年,每年春節前后都會趕上一波AI熱潮。2023年,ChatGPT引爆了國內大模型創業熱。2024年,視頻生成模型Sora的突然亮相震撼了所有人。

而今年,主角變成了DeepSeek。這家技術開放但行事低調的中國公司,以一己之力改變了AI大模型的世界格局。

2024年底及2025年初,DeepSeek相繼發布新一代MoE模型V3以及推理模型R1,憑借“高性能、低訓練成本”和“對齊OpenAI o1”兩項最直觀的表現,引爆海內外。據Xsignal數據,截至2月8日,DeepSeek國內APP端日活為3494萬,海外APP端日活達3685萬,上線不到一個月時間就超過了其他同類應用,直追ChatGPT。

最先坐不住的是硅谷科技巨頭Meta。原本Meta開發的Llama系列模型才是全球開源大模型的領頭羊。如今,DeepSeek用不到其十分之一的成本做出了性能更好的模型,還免費開源了,這讓Meta的“巨額成本開支”處境尷尬。

隨后受到沖擊的是英偉達。因為市場擔憂DeepSeek帶來的低成本模式會減少算力需求,英偉達市值一夜蒸發近6000億美元,創下了美股單日最大跌幅紀錄。隨即,一眾美股芯片股接連下跌。

沖擊的另一面,幾乎所有與大模型行業有關的企業,都在春節忙著加入這場巨浪,渴望承接背后的流量紅利。全球范圍的主流云廠商,無一例外迅速跟進部署DeepSeek API;華為昇騰之外多家國產AI芯片廠商,宣布適配DeepSeek不同尺寸模型。

國內投資者的熱情也被瞬間點燃。由AI產業鏈公司構成DeepSeek概念股,包括算力基礎設施、大模型技術與算法、應用場景等相關公司,已在二級市場連續多日普漲。

而在聚光燈外,大模型“六小虎”面臨的行業質疑再度抬頭。模型影響力,技術認可度,產品用戶規模,看上去他們正在這些維度全面落后。但一年之前,“六小虎”們才是被資本選中要跟OpenAI打擂臺的中國初創力量。

DeepSeek的此番影響就是如此之廣。它既是對手的威脅,也是行業的東風。無論如何,它已成為2025年的絕對主角。

“來自東方的神秘力量”

在今年的達沃斯論壇上,無論是否身處科技圈,許多老外都會向 Fusion Fund 創始合伙人張璐打聽起DeepSeek——這家他們最近剛剛聽聞的中國公司。

甚至在Fusion Fund內部,張璐的合伙人,在AI和深度學習領域有超過20年經驗的David Gerster,也一直在群里問她:你對這家公司了解多少?你認識這家公司的創始人嗎?

仿佛一夜之間,所有人都想了解DeepSeek橫空出世的背景。

不同于其他大模型公司,成立于2023年的DeepSeek脫胎于知名量化基金幻方量化,目前沒有進行任何外部融資。公司創始人梁文鋒1985年出生于廣東湛江,2010年從浙江大學畢業,之后一直在從事量化交易相關工作,并創立了杭州幻方。

DeepSeek創始人梁文鋒。圖片來源:視覺中國

DeepSeek成立之后也異常低調,幾乎沒有進行任何對外宣傳。但是在AI技術圈,自去年年中起,這家公司就憑借 DeepSeek-V2 在 MLA 等方面的創新得到了業內認可,被硅谷視作一股“來自東方的神秘力量”。

張璐告訴界面新聞記者,半年多以前,OpenAI和Anthropic的員工就在談論這家公司。當時,主要是因為它在開源生態中十分活躍,而行業格外關注新模型在架構層面的創新。

在Meta從事大模型相關工作的華人員工馬克(化名)也對界面新聞記者表示,他們去年就關注到了DeepSeek,但當時只覺得“這是中國第一梯隊的模型,還不是世界級的,比OpenAI等更是差上一截。”

但是,最近DeepSeek-V3和DeepSeek-R1的出現成為一個轉折點。特別是DeepSeek-R1引爆了用戶端,它是首個復現OpenAI o1推理模型能力的開源大模型,而且完全免費。

DeepSeek疊加的四層“Buff”也讓硅谷的華人工程師們不得不佩服:純中國團隊,算力資源有限,效果打敗或持平美國最先進模型,并且完全開源。

馬克和同事們對此討論了很多,核心觀點是:“如果DeepSeek花這么一些錢就可以訓練出這么好的模型,那我們花這么多錢在干嘛?”

Meta員工此前在美國匿名職場社區上發帖爆料稱,公司已經成立了四個專門的研究小組分析研究DeepSeek V3模型的工作原理。內部認為,DeepSeek V3的綜合性能已超越Llama 3,公司擔心計劃推出的下一代模型Llama 4也有“落后的可能”。

張璐推斷說,“Llama 4一定會參考DeepSeek現在的算法模型。”事實上,現在全行業都在學習參考DeepSeek成功的秘密。

據DeepSeek開發團隊介紹,V3模型采用了模型壓縮、多頭潛在注意力機制(MLA)、混合專家模型(MoE)、FP8混合精度訓練等一系列創新技術降低成本,R1模型又有組相對策略優化算法(GRPO)這一重要創新。

摩爾線程市場生態高級總監呂其恒告訴界面新聞,DeepSeek的核心突破在于算法優化和算力效率的提升,雖然模型項目開源,但公司獨有的這些技術具有相當高的壁壘,需要大量工程師團隊投入研發和工程優化,其他公司短期內很難直接復制,但行業依然能從DeepSeek的創新中獲得靈感。

張璐自己在硅谷最明顯的感受是,之前OpenAI和Anthropic在談到DeepSeek的時候,不會覺得“他們會比我們做得更好”,而現在,“尤其是OpenAI,可能會把DeepSeek作為一個競爭對手。”OpenAI CEO山姆·奧特曼更是在近期一場播客上直言,有計劃跟DeepSeek團隊進行一場交流。

攪動算力市場

以“鯨魚”為標志的DeepSeek,如今被視為一條攪動全球科技市場的“鯰魚”。

中信建投證券研究所所長武超則向界面新聞記者表示,DeepSeek的 “鯰魚效應” 最直觀的體現,便是其掀起的“AI降本浪潮”——未來大家都能以更低的成本開發大模型。

據DeepSeek官方論文介紹,DeepSeek訓練V3模型使用了2048張英偉達H800 GPU,完整訓練消耗了278.8萬個GPU小時,按照租賃價格每小時2美元計算,成本約為557.6萬美元。

作為對比,Llama-3.1動用了超過1.6萬張英偉達H100GPU訓練,訓練成本高達數億美元,GPT-4o模型的訓練成本業內估計在1億美元上下。

Anthropic創始人Dario Amodei在個人播客網站上撰文稱,雖然“用600萬美元實現數十億美元投入效果”的說法在傳播上被嚴重夸大,但DeepSeek所做的創新確實大幅降低了成本。更令硅谷震驚的是,當全球都在追求降低AI模型成本時,“第一個做到的是家中國公司。”

華爾街再次對AI算力泡沫心生恐慌。投資者們擔心,未來DeepSeek的低成本模式一旦推廣,科技公司是否還需要持續大量購入英偉達先進的AI芯片支持模型開發?

在美股市場芯片股1月27日受到的重挫中,英偉達跌超17%,臺積電跌超13%,阿斯麥跌5%。

DeepSeek走紅引發英偉達股價大跌。圖片來源:東方IC

不過,英偉達在股價暴跌隔日發給界面新聞的聲明中強調, 在中國大陸AI算力資源受限的背景下,DeepSeek主要在AI模型推理階段運用了創新技術,但推理仍然需要大量英偉達GPU及配套的高性能網絡技術。DeepSeek的進步不僅不意味算力過剩,“反而證明市場需要更多AI芯片”。

市場近期正流行用一項經濟學經典理論“杰文斯悖論”(Jevons Paradox)來解釋算力市場的供需變化。即一項技術創新在降低成本、提高效率的同時,資源消耗非但不會減少,反而會因成本降低和應用范圍擴大而急劇增加。

事實上,最近微軟、亞馬遜、Meta、谷歌等巨頭都相繼在各自的財報會上表態大幅增加2025年的資本開支,重點投資數據中心等AI基建項目。四家巨頭2025年資本支出總額將超過3200億美元,總增速約為30%。

此外,OpenAI、軟銀、甲骨文等多家公司聯合發起了一項“星際之門”AI基建計劃(The Stargate Project),該計劃要在2029年之前在算力市場投資高達5000億美元,第一筆初始投資1000億美元。

英國GPU公司Imagination產品管理副總裁Dennis Laudick在采訪中告訴界面新聞,DeepSeek所做的創新屬于一種降低人工智能功耗與優化效率的進步。“任何工作負載的簡化都能讓算力資源得到更充分利用,未來對算力的需求將持續超過供給。”

“現在就連DeepSeek自己都因為服務器不夠用網站頻繁卡頓。事實上,算力市場相當長時間內都處在一個高增長擴容的周期。”武超則說。因此無論從巨頭資本開支的基本盤,還是更多公司對推理端算力的新增投資,算力泡沫都看不到有破裂的跡象。

另外,在業內人士看來,DeepSeek的創新對國產算力芯片也是一大利好。比如DeepSeek用到的FP8混合精度算力訓練,這種混合低精度的訓練方法在一定程度上可彌補國內芯片硬件性能的不足,提供了更多軟件算法的創新空間,像摩爾線程已將相應技術引入產品中。

AI六小虎被“卷”到

月之暗面聯合創始人張予彤最近更新了一條朋友圈,她發出一張Kimi用戶量增長圖,在配文中稱“很高興Kimi新版本上線后用戶量又創新高”。

很多人不知道的是,月之暗面最新版大模型Kimi1.5是跟DeepSeek-R1在同一天發布的,但完全被淹沒在了鋪天蓋地的DeepSeek浪潮之中。

月之暗面的總部,離DeepSeek北京團隊所在的融科資訊中心的直線距離不足1公里。去年春節,DeepSeek還默默無聞,而月之暗面因為拿下了阿里的巨額投資聲名鵲起,躋身大模型創業“六小虎”頭部。

如今,一年時間過去,無論是技術創新,產品認知,抑或是企業影響力,DeepSeek無可置疑已經一飛沖天,邁入世界級的擂臺了。而“六小虎”們各有各的難題。

李揚(化名)整個蛇年春節都是在加班中度過的,他在“六小虎”其中一家從事AI infra的優化工作。雖然在他看來,DeepSeek-V3的MFU(模型算力利用率)在其模型架構下是合理的,但作為成本控制極為重要的一環,其所在團隊的工作仍被施加了壓力。

不只是李揚,有多位“六小虎”員工告訴界面新聞,他們只在除夕和大年初一休假,其他時間照常撲在了工作上。據界面新聞記者了解,其中一家公司的算法團隊幾乎整個假期都在加速推進自己推理模型的參數scale up。

一名在“六小虎”就職的技術負責人表示,最近工作氛圍的確變緊張了,因為看到了大眾對AI的高期待。公司總體會保持原有的迭代節奏,“但有些項目的優先級可能會有調整”。

一名大模型領域投資人對界面新聞記者表示,因為DeepSeek的爆火,“六小虎”接下來的融資和估值會全面受到影響。據其了解,現在參投某大模型公司的一家國資,已經在內部被質疑當初為什么選擇投那家公司?“這其實也是一種問責。”

眼下,“六小虎”走出自己核心差異化路線的緊迫感,比過去任何時候都要突出:如果不繼續燒錢創新,它們的預訓練模型和推理模型都很難打過DeepSeek;但如果不做預訓練,又難以撐起下一次融資的估值。

而在第一條路上更艱難的是,DeepSeek還極可能沖擊了閉源生態。朱嘯虎直言,在中國,只有互聯網大廠有繼續卷閉源模型的意義。

事實上,就連互聯網大廠的閉源生態堡壘也出現了裂縫。一直被視為業內最堅定走閉源路線的百度,也于2月14日正式宣布,將在未來幾個月推出文心大模型4.5系列,并從6月30日起首次開源。

去年在業內爭論模型開源與閉源模式之爭最激烈的時候,百度創始人李彥宏曾在多個場合公開力挺閉源模式,直言“開源模型是智商稅”。前后一年時間不到,無論百度當下的選擇出于主動還是被動,這樣180度的大轉彎都令行業不得不重新審視開源與閉源模式的未來。

“中國閉源大模型幾乎成為一個死局了。”前述投資人也如此表示。

分一杯羹

在DeepSeek今年春節爆火的一個月之前,梁文鋒曾問過袁進輝,要不要在他們的平臺上部署DeepSeek-V3模型。袁進輝創辦的硅基流動主做大模型云服務平臺,為生成式AI提供基礎設施。

梁文鋒當時建議,如果要部署的話,最好要準備80臺H100服務器。袁進輝接著算了一筆賬,發現一個月對應需要五六百萬元成本,于是沒有下注。轉眼DeepSeek火遍全球,他頓感“決策失誤,欲哭無淚”。

看著DeepSeek不斷創造奇跡的時候,袁進輝內心焦急但苦于沒有資源。一個同事突發奇想,“用國產卡吧!”這個想法也得到了華為昇騰云團隊的大力支持,這也就有了開頭的故事。

此后的袁進輝在社交平臺上變成一個活躍的“客服號”,不斷反饋產品體驗的不足,以及將要加強改善的地方。因為抓住時機而卷入DeepSeek流量漩渦,袁進輝話里話外不外乎“傳播速度太快了、用戶太多了、需求太大了”。

“參與”DeepSeek的狂歡成為一個行業共識,尤其是云廠商。在DeepSeek因為訪問量太大頻頻出現“服務器繁忙,請稍后再試”的時候,無處可去的流量轉向接入了DeepSeek的云平臺。

這一波外企的動作反而更加迅速。1月最后兩天,微軟Azure、亞馬遜AWS先后宣布上線DeepSeek-R1,谷歌云也隨即發布了R1部署指南。2月第一周,除硅基流動及華為昇騰云外,騰訊云、阿里云、百度智能云、火山引擎、京東云等廠商,均宣布接入R1推理模型,部分同時引入了V3。

不僅如此,此前在AI領域聲量并不突出的三大電信運營商,中國移動、中國電信、中國聯通相繼在其云服務中上線DeepSeek模型。

芯片廠商中,英偉達NVIDIA NIM引入R1,AMD則將V3集成到Instinct MI300X GPU上,并針對AI推理進行了優化。國產芯片廠商摩爾線程、沐曦、壁仞、天數智芯集體宣布部署適配DeepSeek模型。

即便是其他大模型同行,也開始接入DeepSeek。昆侖萬維就是最早一批行動起來的。這家公司不僅有自己的天工大模型,也打造了推理模型。但昆侖萬維還是在其“天工AI”上線了“DeepSeekR1+聯網搜索”功能。

昆侖萬維CEO方漢。圖片來源:界面新聞

昆侖萬維CEO方漢的心態很開放,他告訴界面新聞記者,公司并不是受到沖擊而調整策略,而是確信這樣做更有利于用戶體驗。他觀察到,在加入了R1之后,用戶使用天工AI搜索的平均時長的確明顯變長了。

另外出人意料的是,騰訊元寶也在自有混元大模型的情況下接入了DeepSeek R1。這也是第一個在其C端AI助手中接入R1的互聯網大廠。

AI產業鏈的東風已至

DeepSeek突然火遍全球之后,美國政界又出現了更多聲音,呼吁對華進行更強力的芯片管制。但也有人反思,或許正是高端芯片管制倒逼著DeepSeek做出了這些在算法架構和工程上的創新。

方漢認為,算力限制只能在短期形成一定壁壘,長期來看,當中國的算力被限制,中國研究人員優化硬件效率的欲望只會更強。“萬一Scaling Law最后真的是靠算法而不是算力來實現,美國人的愿景就會落空。”方漢說。

受DeepSeek的啟發,方漢已經考慮在昆侖萬維后續的模型訓練中應用GPRO等算法。他甚至認為這是“T0級別”的創新,“未來怎么把它泛化到除了數學跟編程之外的其他的垂類領域,以及其他的模態,我認為這是非常有價值的。”

除了像昆侖萬維這樣的企業,更多的下游應用公司也將搭上DeepSeek的東風。

以教育公司為例,最近好未來、網易有道、云學堂、中公教育、猿輔導、讀書郎等一眾教育機構密集接入DeepSeek,覆蓋從線上教育、職業培訓、個性化學習到企業員工培訓等各類業務。有行業人士甚至將之稱為“教育AI真正的諾曼底時刻”。

好未來CTO田密對界面新聞稱,團隊從最早的V1版本就在追蹤DeepSeek的進展,并應用自己的業務中。“從結果來看,他們做得很棒。”

國產手機廠商也在忙著加入,華為、榮耀、OPPO、vivo、魅族、紅魔、努比亞等紛紛宣布接入DeepSeek-R1。其中一家手機廠的AI負責人告訴界面新聞,DeepSeek對手機廠商最大的影響是開源,以及終于可以把高成本的推理模型布局在手機這種消費品上,未來他們會考慮蒸餾小的端側模型。

證券行業也已經被DeepSeek席卷。截至目前,包括中金財富、國泰君安、華福證券、廣發證券、國金證券、興業證券等近20家券商宣布完成DeepSeek模型的本地化部署。應用場景主要聚焦于智能投研、客服、投顧、IT運維、風控、市場營銷等領域。

比如國金證券相關負責人就表示,其基于DeepSeek打造的“深度思考”產業鏈智能挖掘系統已投入應用。

DeepSeek也給應用創業帶來了更多機會。盡管現在DeepSeek做出了全中國乃至全世界最好用的開源模型,但應用方向是龐雜的,DeepSeek無法滿足所有長尾需求。

正如梁文鋒在此前受訪時談到對于大模型終局的預期:未來會有專門提供基礎模型和服務的公司,形成一個長產業鏈的專業分工體系。更多公司將在這些基礎之上,為社會的多元需求提供解決方案。

過去追著投基礎大模型的投資人們,已經開始把更多精力放在了“AI應用”上。

云啟資本合伙人陳昱判斷,2025年可能會涌現大批ISV公司利用開源大模型以低成本服務市場,這背后會滋生大量獨立小廠的機會。

在模型能力提升之后,完全自動化而非co-pilot模式的應用場景潛力更加突出。“就像自動駕駛一樣,在技術不夠好的時候,L2就可以滿足需求,但技術足夠好的話,大家還是更想要L4。”

最近,市場已經傳出DeepSeek正在以80億美元估值融資的消息。陳昱認為,當下VC再去圍追堵截DeepSeek沒有任何意義,眼下更重要的是將目光轉向AI產業鏈的其他變革機會上,例如具身智能、邊緣計算、智能硬件,還有眾多獨立應用的機會。

“投不到大模型本身,你還可以提前布局它的周邊。”他說,“這里是更百花齊放的。”

(界面新聞記者查沁君、陸柯言、孫藝真對本文亦有貢獻)

未經正式授權嚴禁轉載本文,侵權必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

商業頭條No.61 | DeepSeek風暴席卷AI產業鏈

DeepSeek既是對手的威脅,也是行業的東風。2025年伊始,它的影響已經席卷整個AI產業鏈。

圖片來源:視覺中國

界面新聞記者 | 伍洋宇 李彪

界面新聞編輯 | 劉方遠

蛇年除夕夜那晚,硅基流動創始人袁進輝沒有留在飯桌上,而是在抓緊時間跟技術團隊開會,為了盡快解決DeepSeek模型在國產芯片上的適配問題。

經過三天三夜的加班加點,他們聯合華為和DeepSeek,趕在2月1日上線了基于國產芯片服務的DeepSeek-V3和DeepSeek-R1。此時,距離DeepSeek AI智能助手同時登頂中美兩國App Store免費應用榜,還不到一周時間。

DeepSeek登頂AppStore排行榜。來源:東方IC

也許是巧合,最近三年,每年春節前后都會趕上一波AI熱潮。2023年,ChatGPT引爆了國內大模型創業熱。2024年,視頻生成模型Sora的突然亮相震撼了所有人。

而今年,主角變成了DeepSeek。這家技術開放但行事低調的中國公司,以一己之力改變了AI大模型的世界格局。

2024年底及2025年初,DeepSeek相繼發布新一代MoE模型V3以及推理模型R1,憑借“高性能、低訓練成本”和“對齊OpenAI o1”兩項最直觀的表現,引爆海內外。據Xsignal數據,截至2月8日,DeepSeek國內APP端日活為3494萬,海外APP端日活達3685萬,上線不到一個月時間就超過了其他同類應用,直追ChatGPT。

最先坐不住的是硅谷科技巨頭Meta。原本Meta開發的Llama系列模型才是全球開源大模型的領頭羊。如今,DeepSeek用不到其十分之一的成本做出了性能更好的模型,還免費開源了,這讓Meta的“巨額成本開支”處境尷尬。

隨后受到沖擊的是英偉達。因為市場擔憂DeepSeek帶來的低成本模式會減少算力需求,英偉達市值一夜蒸發近6000億美元,創下了美股單日最大跌幅紀錄。隨即,一眾美股芯片股接連下跌。

沖擊的另一面,幾乎所有與大模型行業有關的企業,都在春節忙著加入這場巨浪,渴望承接背后的流量紅利。全球范圍的主流云廠商,無一例外迅速跟進部署DeepSeek API;華為昇騰之外多家國產AI芯片廠商,宣布適配DeepSeek不同尺寸模型。

國內投資者的熱情也被瞬間點燃。由AI產業鏈公司構成DeepSeek概念股,包括算力基礎設施、大模型技術與算法、應用場景等相關公司,已在二級市場連續多日普漲。

而在聚光燈外,大模型“六小虎”面臨的行業質疑再度抬頭。模型影響力,技術認可度,產品用戶規模,看上去他們正在這些維度全面落后。但一年之前,“六小虎”們才是被資本選中要跟OpenAI打擂臺的中國初創力量。

DeepSeek的此番影響就是如此之廣。它既是對手的威脅,也是行業的東風。無論如何,它已成為2025年的絕對主角。

“來自東方的神秘力量”

在今年的達沃斯論壇上,無論是否身處科技圈,許多老外都會向 Fusion Fund 創始合伙人張璐打聽起DeepSeek——這家他們最近剛剛聽聞的中國公司。

甚至在Fusion Fund內部,張璐的合伙人,在AI和深度學習領域有超過20年經驗的David Gerster,也一直在群里問她:你對這家公司了解多少?你認識這家公司的創始人嗎?

仿佛一夜之間,所有人都想了解DeepSeek橫空出世的背景。

不同于其他大模型公司,成立于2023年的DeepSeek脫胎于知名量化基金幻方量化,目前沒有進行任何外部融資。公司創始人梁文鋒1985年出生于廣東湛江,2010年從浙江大學畢業,之后一直在從事量化交易相關工作,并創立了杭州幻方。

DeepSeek創始人梁文鋒。圖片來源:視覺中國

DeepSeek成立之后也異常低調,幾乎沒有進行任何對外宣傳。但是在AI技術圈,自去年年中起,這家公司就憑借 DeepSeek-V2 在 MLA 等方面的創新得到了業內認可,被硅谷視作一股“來自東方的神秘力量”。

張璐告訴界面新聞記者,半年多以前,OpenAI和Anthropic的員工就在談論這家公司。當時,主要是因為它在開源生態中十分活躍,而行業格外關注新模型在架構層面的創新。

在Meta從事大模型相關工作的華人員工馬克(化名)也對界面新聞記者表示,他們去年就關注到了DeepSeek,但當時只覺得“這是中國第一梯隊的模型,還不是世界級的,比OpenAI等更是差上一截。”

但是,最近DeepSeek-V3和DeepSeek-R1的出現成為一個轉折點。特別是DeepSeek-R1引爆了用戶端,它是首個復現OpenAI o1推理模型能力的開源大模型,而且完全免費。

DeepSeek疊加的四層“Buff”也讓硅谷的華人工程師們不得不佩服:純中國團隊,算力資源有限,效果打敗或持平美國最先進模型,并且完全開源。

馬克和同事們對此討論了很多,核心觀點是:“如果DeepSeek花這么一些錢就可以訓練出這么好的模型,那我們花這么多錢在干嘛?”

Meta員工此前在美國匿名職場社區上發帖爆料稱,公司已經成立了四個專門的研究小組分析研究DeepSeek V3模型的工作原理。內部認為,DeepSeek V3的綜合性能已超越Llama 3,公司擔心計劃推出的下一代模型Llama 4也有“落后的可能”。

張璐推斷說,“Llama 4一定會參考DeepSeek現在的算法模型。”事實上,現在全行業都在學習參考DeepSeek成功的秘密。

據DeepSeek開發團隊介紹,V3模型采用了模型壓縮、多頭潛在注意力機制(MLA)、混合專家模型(MoE)、FP8混合精度訓練等一系列創新技術降低成本,R1模型又有組相對策略優化算法(GRPO)這一重要創新。

摩爾線程市場生態高級總監呂其恒告訴界面新聞,DeepSeek的核心突破在于算法優化和算力效率的提升,雖然模型項目開源,但公司獨有的這些技術具有相當高的壁壘,需要大量工程師團隊投入研發和工程優化,其他公司短期內很難直接復制,但行業依然能從DeepSeek的創新中獲得靈感。

張璐自己在硅谷最明顯的感受是,之前OpenAI和Anthropic在談到DeepSeek的時候,不會覺得“他們會比我們做得更好”,而現在,“尤其是OpenAI,可能會把DeepSeek作為一個競爭對手。”OpenAI CEO山姆·奧特曼更是在近期一場播客上直言,有計劃跟DeepSeek團隊進行一場交流。

攪動算力市場

以“鯨魚”為標志的DeepSeek,如今被視為一條攪動全球科技市場的“鯰魚”。

中信建投證券研究所所長武超則向界面新聞記者表示,DeepSeek的 “鯰魚效應” 最直觀的體現,便是其掀起的“AI降本浪潮”——未來大家都能以更低的成本開發大模型。

據DeepSeek官方論文介紹,DeepSeek訓練V3模型使用了2048張英偉達H800 GPU,完整訓練消耗了278.8萬個GPU小時,按照租賃價格每小時2美元計算,成本約為557.6萬美元。

作為對比,Llama-3.1動用了超過1.6萬張英偉達H100GPU訓練,訓練成本高達數億美元,GPT-4o模型的訓練成本業內估計在1億美元上下。

Anthropic創始人Dario Amodei在個人播客網站上撰文稱,雖然“用600萬美元實現數十億美元投入效果”的說法在傳播上被嚴重夸大,但DeepSeek所做的創新確實大幅降低了成本。更令硅谷震驚的是,當全球都在追求降低AI模型成本時,“第一個做到的是家中國公司。”

華爾街再次對AI算力泡沫心生恐慌。投資者們擔心,未來DeepSeek的低成本模式一旦推廣,科技公司是否還需要持續大量購入英偉達先進的AI芯片支持模型開發?

在美股市場芯片股1月27日受到的重挫中,英偉達跌超17%,臺積電跌超13%,阿斯麥跌5%。

DeepSeek走紅引發英偉達股價大跌。圖片來源:東方IC

不過,英偉達在股價暴跌隔日發給界面新聞的聲明中強調, 在中國大陸AI算力資源受限的背景下,DeepSeek主要在AI模型推理階段運用了創新技術,但推理仍然需要大量英偉達GPU及配套的高性能網絡技術。DeepSeek的進步不僅不意味算力過剩,“反而證明市場需要更多AI芯片”。

市場近期正流行用一項經濟學經典理論“杰文斯悖論”(Jevons Paradox)來解釋算力市場的供需變化。即一項技術創新在降低成本、提高效率的同時,資源消耗非但不會減少,反而會因成本降低和應用范圍擴大而急劇增加。

事實上,最近微軟、亞馬遜、Meta、谷歌等巨頭都相繼在各自的財報會上表態大幅增加2025年的資本開支,重點投資數據中心等AI基建項目。四家巨頭2025年資本支出總額將超過3200億美元,總增速約為30%。

此外,OpenAI、軟銀、甲骨文等多家公司聯合發起了一項“星際之門”AI基建計劃(The Stargate Project),該計劃要在2029年之前在算力市場投資高達5000億美元,第一筆初始投資1000億美元。

英國GPU公司Imagination產品管理副總裁Dennis Laudick在采訪中告訴界面新聞,DeepSeek所做的創新屬于一種降低人工智能功耗與優化效率的進步。“任何工作負載的簡化都能讓算力資源得到更充分利用,未來對算力的需求將持續超過供給。”

“現在就連DeepSeek自己都因為服務器不夠用網站頻繁卡頓。事實上,算力市場相當長時間內都處在一個高增長擴容的周期。”武超則說。因此無論從巨頭資本開支的基本盤,還是更多公司對推理端算力的新增投資,算力泡沫都看不到有破裂的跡象。

另外,在業內人士看來,DeepSeek的創新對國產算力芯片也是一大利好。比如DeepSeek用到的FP8混合精度算力訓練,這種混合低精度的訓練方法在一定程度上可彌補國內芯片硬件性能的不足,提供了更多軟件算法的創新空間,像摩爾線程已將相應技術引入產品中。

AI六小虎被“卷”到

月之暗面聯合創始人張予彤最近更新了一條朋友圈,她發出一張Kimi用戶量增長圖,在配文中稱“很高興Kimi新版本上線后用戶量又創新高”。

很多人不知道的是,月之暗面最新版大模型Kimi1.5是跟DeepSeek-R1在同一天發布的,但完全被淹沒在了鋪天蓋地的DeepSeek浪潮之中。

月之暗面的總部,離DeepSeek北京團隊所在的融科資訊中心的直線距離不足1公里。去年春節,DeepSeek還默默無聞,而月之暗面因為拿下了阿里的巨額投資聲名鵲起,躋身大模型創業“六小虎”頭部。

如今,一年時間過去,無論是技術創新,產品認知,抑或是企業影響力,DeepSeek無可置疑已經一飛沖天,邁入世界級的擂臺了。而“六小虎”們各有各的難題。

李揚(化名)整個蛇年春節都是在加班中度過的,他在“六小虎”其中一家從事AI infra的優化工作。雖然在他看來,DeepSeek-V3的MFU(模型算力利用率)在其模型架構下是合理的,但作為成本控制極為重要的一環,其所在團隊的工作仍被施加了壓力。

不只是李揚,有多位“六小虎”員工告訴界面新聞,他們只在除夕和大年初一休假,其他時間照常撲在了工作上。據界面新聞記者了解,其中一家公司的算法團隊幾乎整個假期都在加速推進自己推理模型的參數scale up。

一名在“六小虎”就職的技術負責人表示,最近工作氛圍的確變緊張了,因為看到了大眾對AI的高期待。公司總體會保持原有的迭代節奏,“但有些項目的優先級可能會有調整”。

一名大模型領域投資人對界面新聞記者表示,因為DeepSeek的爆火,“六小虎”接下來的融資和估值會全面受到影響。據其了解,現在參投某大模型公司的一家國資,已經在內部被質疑當初為什么選擇投那家公司?“這其實也是一種問責。”

眼下,“六小虎”走出自己核心差異化路線的緊迫感,比過去任何時候都要突出:如果不繼續燒錢創新,它們的預訓練模型和推理模型都很難打過DeepSeek;但如果不做預訓練,又難以撐起下一次融資的估值。

而在第一條路上更艱難的是,DeepSeek還極可能沖擊了閉源生態。朱嘯虎直言,在中國,只有互聯網大廠有繼續卷閉源模型的意義。

事實上,就連互聯網大廠的閉源生態堡壘也出現了裂縫。一直被視為業內最堅定走閉源路線的百度,也于2月14日正式宣布,將在未來幾個月推出文心大模型4.5系列,并從6月30日起首次開源。

去年在業內爭論模型開源與閉源模式之爭最激烈的時候,百度創始人李彥宏曾在多個場合公開力挺閉源模式,直言“開源模型是智商稅”。前后一年時間不到,無論百度當下的選擇出于主動還是被動,這樣180度的大轉彎都令行業不得不重新審視開源與閉源模式的未來。

“中國閉源大模型幾乎成為一個死局了。”前述投資人也如此表示。

分一杯羹

在DeepSeek今年春節爆火的一個月之前,梁文鋒曾問過袁進輝,要不要在他們的平臺上部署DeepSeek-V3模型。袁進輝創辦的硅基流動主做大模型云服務平臺,為生成式AI提供基礎設施。

梁文鋒當時建議,如果要部署的話,最好要準備80臺H100服務器。袁進輝接著算了一筆賬,發現一個月對應需要五六百萬元成本,于是沒有下注。轉眼DeepSeek火遍全球,他頓感“決策失誤,欲哭無淚”。

看著DeepSeek不斷創造奇跡的時候,袁進輝內心焦急但苦于沒有資源。一個同事突發奇想,“用國產卡吧!”這個想法也得到了華為昇騰云團隊的大力支持,這也就有了開頭的故事。

此后的袁進輝在社交平臺上變成一個活躍的“客服號”,不斷反饋產品體驗的不足,以及將要加強改善的地方。因為抓住時機而卷入DeepSeek流量漩渦,袁進輝話里話外不外乎“傳播速度太快了、用戶太多了、需求太大了”。

“參與”DeepSeek的狂歡成為一個行業共識,尤其是云廠商。在DeepSeek因為訪問量太大頻頻出現“服務器繁忙,請稍后再試”的時候,無處可去的流量轉向接入了DeepSeek的云平臺。

這一波外企的動作反而更加迅速。1月最后兩天,微軟Azure、亞馬遜AWS先后宣布上線DeepSeek-R1,谷歌云也隨即發布了R1部署指南。2月第一周,除硅基流動及華為昇騰云外,騰訊云、阿里云、百度智能云、火山引擎、京東云等廠商,均宣布接入R1推理模型,部分同時引入了V3。

不僅如此,此前在AI領域聲量并不突出的三大電信運營商,中國移動、中國電信、中國聯通相繼在其云服務中上線DeepSeek模型。

芯片廠商中,英偉達NVIDIA NIM引入R1,AMD則將V3集成到Instinct MI300X GPU上,并針對AI推理進行了優化。國產芯片廠商摩爾線程、沐曦、壁仞、天數智芯集體宣布部署適配DeepSeek模型。

即便是其他大模型同行,也開始接入DeepSeek。昆侖萬維就是最早一批行動起來的。這家公司不僅有自己的天工大模型,也打造了推理模型。但昆侖萬維還是在其“天工AI”上線了“DeepSeekR1+聯網搜索”功能。

昆侖萬維CEO方漢。圖片來源:界面新聞

昆侖萬維CEO方漢的心態很開放,他告訴界面新聞記者,公司并不是受到沖擊而調整策略,而是確信這樣做更有利于用戶體驗。他觀察到,在加入了R1之后,用戶使用天工AI搜索的平均時長的確明顯變長了。

另外出人意料的是,騰訊元寶也在自有混元大模型的情況下接入了DeepSeek R1。這也是第一個在其C端AI助手中接入R1的互聯網大廠。

AI產業鏈的東風已至

DeepSeek突然火遍全球之后,美國政界又出現了更多聲音,呼吁對華進行更強力的芯片管制。但也有人反思,或許正是高端芯片管制倒逼著DeepSeek做出了這些在算法架構和工程上的創新。

方漢認為,算力限制只能在短期形成一定壁壘,長期來看,當中國的算力被限制,中國研究人員優化硬件效率的欲望只會更強。“萬一Scaling Law最后真的是靠算法而不是算力來實現,美國人的愿景就會落空。”方漢說。

受DeepSeek的啟發,方漢已經考慮在昆侖萬維后續的模型訓練中應用GPRO等算法。他甚至認為這是“T0級別”的創新,“未來怎么把它泛化到除了數學跟編程之外的其他的垂類領域,以及其他的模態,我認為這是非常有價值的。”

除了像昆侖萬維這樣的企業,更多的下游應用公司也將搭上DeepSeek的東風。

以教育公司為例,最近好未來、網易有道、云學堂、中公教育、猿輔導、讀書郎等一眾教育機構密集接入DeepSeek,覆蓋從線上教育、職業培訓、個性化學習到企業員工培訓等各類業務。有行業人士甚至將之稱為“教育AI真正的諾曼底時刻”。

好未來CTO田密對界面新聞稱,團隊從最早的V1版本就在追蹤DeepSeek的進展,并應用自己的業務中。“從結果來看,他們做得很棒。”

國產手機廠商也在忙著加入,華為、榮耀、OPPO、vivo、魅族、紅魔、努比亞等紛紛宣布接入DeepSeek-R1。其中一家手機廠的AI負責人告訴界面新聞,DeepSeek對手機廠商最大的影響是開源,以及終于可以把高成本的推理模型布局在手機這種消費品上,未來他們會考慮蒸餾小的端側模型。

證券行業也已經被DeepSeek席卷。截至目前,包括中金財富、國泰君安、華福證券、廣發證券、國金證券、興業證券等近20家券商宣布完成DeepSeek模型的本地化部署。應用場景主要聚焦于智能投研、客服、投顧、IT運維、風控、市場營銷等領域。

比如國金證券相關負責人就表示,其基于DeepSeek打造的“深度思考”產業鏈智能挖掘系統已投入應用。

DeepSeek也給應用創業帶來了更多機會。盡管現在DeepSeek做出了全中國乃至全世界最好用的開源模型,但應用方向是龐雜的,DeepSeek無法滿足所有長尾需求。

正如梁文鋒在此前受訪時談到對于大模型終局的預期:未來會有專門提供基礎模型和服務的公司,形成一個長產業鏈的專業分工體系。更多公司將在這些基礎之上,為社會的多元需求提供解決方案。

過去追著投基礎大模型的投資人們,已經開始把更多精力放在了“AI應用”上。

云啟資本合伙人陳昱判斷,2025年可能會涌現大批ISV公司利用開源大模型以低成本服務市場,這背后會滋生大量獨立小廠的機會。

在模型能力提升之后,完全自動化而非co-pilot模式的應用場景潛力更加突出。“就像自動駕駛一樣,在技術不夠好的時候,L2就可以滿足需求,但技術足夠好的話,大家還是更想要L4。”

最近,市場已經傳出DeepSeek正在以80億美元估值融資的消息。陳昱認為,當下VC再去圍追堵截DeepSeek沒有任何意義,眼下更重要的是將目光轉向AI產業鏈的其他變革機會上,例如具身智能、邊緣計算、智能硬件,還有眾多獨立應用的機會。

“投不到大模型本身,你還可以提前布局它的周邊。”他說,“這里是更百花齊放的。”

(界面新聞記者查沁君、陸柯言、孫藝真對本文亦有貢獻)

未經正式授權嚴禁轉載本文,侵權必究。
主站蜘蛛池模板: 长阳| 平塘县| 乐昌市| 惠来县| 辽阳市| 固镇县| 长顺县| 商水县| 宜宾县| 牙克石市| 沂南县| 枣庄市| 应城市| 邻水| 大荔县| 黎平县| 桂阳县| 邵东县| 兖州市| 泰和县| 桦南县| 鸡泽县| 谢通门县| 都安| 长春市| 通道| 德兴市| 土默特右旗| 莎车县| 花垣县| 望都县| 高清| 西充县| 任丘市| 板桥市| 治县。| 叶城县| 祁门县| 张家口市| 衡南县| 嘉黎县|