簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

DeepSeek技術解析:如何沖擊英偉達兩大壁壘?

掃一掃下載界面新聞APP

DeepSeek技術解析:如何沖擊英偉達兩大壁壘?

如何突破NVLink和Cuda?

文|硅谷101

DeepSeek的V3模型僅用557.6萬的訓練成本,實現了與OpenAI O1推理模型相近的性能,這在全球范圍內引發連鎖反應。由于不用那么先進的英偉達芯片就能實現AI能力的飛躍,英偉達在1月27日一天跌幅高達17%,市值一度蒸發6000億美元。一部分投資人擔心這會減少市場對先進芯片的需求,但科技圈也普遍存在另一種相反的觀點:一個高性能、低成本和開源的大模型會帶來整個應用生態的繁榮,反而會利好英偉達的長期發展。

這兩種矛盾的觀點正左右博弈。但如果從技術層面分析,DeepSeek對英偉達、芯片甚至是整個科技行業的影響并不是如此簡單。比如本期嘉賓Inference.ai創始人兼CEO John Yue認為,DeepSeek沖擊了英偉達兩大壁壘——NVLink與CUDA,這在某種程度上打掉了英偉達的溢價,但也并未沖垮壁壘。

本期節目,主理人泓君邀請到加州大學戴維斯分校電子計算機工程系助理教授、AIZip的聯合創始人陳羽北,以及Inference.ai創始人兼CEO John Yue,詳細解讀DeepSeek核心的技術創新以及對芯片市場的影響。

以下是部分訪談精選

01 DeepSeek的核心創新是基礎模型能力

泓君:能不能先從技術上分析一下DeepSeek比較讓人驚艷的地方?

陳羽北:從DeepSeek這次的進展來看,雖然強化學習在其中占據重要地位,但我認為基礎模型DeepSeek V3本身的能力才是關鍵。這一點從DeepSeek的論文數據中可以得到印證——在R1 Zero未經過強化學習時,每生成100條內容就有約10%的成功率,這已經是非常顯著的提升。

DeepSeek這次采用的是GRPO(分組相對策略優化)的方法,有人提出使用PPO(近端策略優化)等其他強化學習方法也能達到類似效果。

這告訴我們一個重要信息:當基礎模型的能力達到一定水平后,如果能找到合適的獎勵函數,就可以通過類似search的方法實現自我提升。所以這次進展傳遞了一個積極的信號,但強化學習在其中反而起到次要作用,基礎模型的能力才是根本。

泓君:總結你的觀點,DeepSeek之所以好本質上還是因為V3的表現非常驚艷,因為用比如MoE等各種方式,去讓這個基礎模型性能更好。R1只是在這個基礎模型之上的一次升級,但是你覺得V3比R1-Zero更加重要

陳羽北:我覺得他們都有一些重要的點。從V3來看,主要集中在模型架構效率的提升上,其中有兩個重要的工作:一個是混合專家網絡(MoE)。以前不同專家(expert)的負載均衡(load balance)做得不太好,在分散到不同節點時的時候,它的Load Balance會有問題,,所以他們對負載均衡做了優化。

其次,它在Attention Layer上,他要節省鍵值緩存(KV Cache),其實這也是在提高架構的效率。這兩點作為它的核心創新,使得它在600多B的大模型上,使得基礎模型的能力表現已經挺不錯的了。在DeepSeek R1 Zero中,他們首先設計了一個簡單直觀的基于規則(rule-based)的獎勵函數。基本要求是確保數學題的答案和回答格式都完全正確。他們采用了DeepSeek V3的方法:對每個問題生成100條回答,然后從中篩選出正確答案來增強正確回答的比重。

這種方法實際上繞過了強化學習(reinforcement learning)中最難處理的稀疏獎勵問題——如果我回答100條、回答1萬條它都不對,那我其實就沒有辦法去提升了。但如果任務已經有一定成功率,就可以著重強化這些成功的部分,這樣就把稀疏獎勵轉變為相對稠密的獎勵,也就不需要去搭橋、去建模、去構建中間的獎勵函數了。借助V3的基礎能力,R1 Zero告訴我們,如果這個模型的基礎能力已經不錯了,那么我是有可能通過這個模型自我來進行提升的。其實這種思路和Model Predictive Control和世界模型,是有很多的相似之處的。

第二個是讓大模型訓練小模型,看似是一個顯而易見但是這次也產生了重大影響力的一個結果。他們先訓練了一個600 多B的大模型,通過自啟發式回答100個問題,然后用自我引導(Bootstrap)方法逐漸提高這個能力,將成功率從10%提升到70-80%。這個大模型還可以用來教導小模型。

他們做了一個有意思的實驗,在Qwen上做了從1.5B一直到30幾B的各種大小的蒸餾學習,用大模型學到的推理和計劃能力來提升小模型在相關問題上的表現。這是一個相對容易想到的方向,因為在所有的自我增強、模型預測控制(model predictive control)和基于模型的強化學習(model-based reinforcement learning)中,如果模型本身不夠好,通過搜索方法來提升效果都不會很理想。但如果用一個搜索能力強、表現好的大模型,直接把學到的能力傳授給小模型,這種方法是可行的。

泓君:所以從整體上看,DeepSeek采用的是一個組合拳策略,從V3到R1-Zero再到R1的每一步演進,在方向選擇上都有其可取之處。那么在硅谷的公司中,像OpenAI、Gemini、Claude以及LlaMA,他們是否也采用了類似的模型訓練方法呢?

陳羽北:我覺得很多這樣的想法在之前的研究工作中就已經出現過。

比如DeepSeek V3模型中使用的多頭潛在注意力機制(Multihead Latent Attention),Meta之前就發表過一篇關于多令牌層(Multi-Token Layer)的研究,效果也很相似。另外,在推理和規劃(Reasoning and Planning)方面,之前也有過很多相關研究,還有在獎勵機制和基于模型的方法(Model-Based Method)等這些方面。

其實我恰恰覺得這次DeepSeek R1 Zero的命名在一定程度上和AlphaZero有點像。

02 對英偉達利好與利空:沖擊溢價但并未沖垮壁壘

泓君:想問一下John,因為你是GPU行業的,你覺得DeepSeek R1對英偉達,它到底是利好還是利空?為什么英偉達的股價會跌?

John Yue:這應該是一把雙刃劍,既有利好也有利空。

利好方面很明顯,DeepSeek的出現給了人們很多想象空間。以前很多人已經放棄做AI模型,現在它給了大家信心,讓更多初創企業出來探索應用層面的可能性。如果有更多人做應用,這其實是英偉達最希望看到的局面,因為整個AI行業被盤活后,大家都需要購買更多的卡。所以從這個角度看,這對英偉達更有利。

而不利的一面是英偉達的溢價確實受到了一些沖擊。很多人一開始認為它的壁壘被沖倒了,導致股價大跌。但我感覺實際情況并沒有那么嚴重。

泓君:壁壘是什么?

John Yue: 英偉達有兩個最大的壁壘:一個是Infiniband(芯片互聯技術);另一個是CUDA(圖形計算統一架構),它那整套調用GPU的系統,與AMD等其他芯片公司已經不在同一層面競爭了。其他公司都在爭單張顯卡的性能,而英偉達比拼的是芯片互聯技術以及軟件調用和生態系統的維護。對于這兩個壁壘,DeepSeek確實都稍微沖擊到了它的溢價,但并沒有把壁壘完全沖垮。

具體來說,對英偉達溢價的沖擊體現在:

  1. MOE的優化實際上在一定程度上削弱了英偉達互聯的這一部分重要性。現在的情況是,我可以把不同的expert放在不同的計算卡上,使得卡與卡之間的互聯不再那么關鍵。而且,一些暫時不需要工作的expert可以進入休眠狀態,這對于英偉達互聯技術的需求確實帶來了一定沖擊。
  2. 另一方面,在CUDA方面,這其實是在告訴大家,現在存在一種新的可能性。以前大家可能都認為繞不開CUDA,而現在我們的(指DeepSeek)團隊已經證明,確實可以“繞開”CUDA,直接使用PTX進行優化,這并不意味著所有團隊以后都具備這樣的能力,但至少,它提供了一種可行的方案——也就是說,現在有可能做到這件事。而這種可能性會導致,未來我不一定非要購買英偉達的顯卡,或者說,不需要最先進的英偉達顯卡,或者可以使用更小型的英偉達顯卡來運行模型。

泓君:什么叫做繞過CUDA,它是真的繞過CUDA了嗎?我聽到的說法是說,它用的不是CUDA比較高層的API,但還是用了比較底層的API。

John Yue:對,我用詞不太準確,準確地說并沒有完全繞過CUDA的生態,而是可以直接調用更底層的庫,不是使用高層API,而是直接調用PTX(并行線程執行)——這是一個指令集上面一層的指令集層級,然后在這一層直接進行優化。不過這也是一個很大的工程,并不是任何一個小公司都有能力去做這件事情。

泓君:如果DeepSeek具備了這種能力,其他公司是否也能獲得類似能力?假設現在買不到英偉達的GPU,轉而使用AMD的GPU,那你剛才提到NVIDIA的兩個核心壁壘:NVLink和CUDA,在某種程度上受到沖擊,這對AMD這樣的公司來說是否是一個利好?

John Yue: 短期來看對AMD是個利好,因為AMD最近已經宣布將DeepSeek給移植過去了。但長期來看,可能還是英偉達占優勢。這畢竟只是DeepSeek這一個模型,而CUDA厲害的地方在于它是通用的GPU調用系統,任何軟件都可以用CUDA。DeepSeek這種做法只支持DeepSeek自己,如果有新的模型出現,還要重新適配一次。

我們就是在賭DeepSeek是否真的能成為業界標準,成為下一個OpenAI,讓所有初創企業都在它的基礎上構建。如果是這樣,對AMD來說確實不錯,因為它已經完成了DeepSeek的移植。但如果不是DeepSeek呢?DeepSeek的優勢主要在于對強化學習和GRPO這些方法的改進。如果后面出現更多使用其他方法的模型,那又要重新適配,比起直接用CUDA要麻煩得多,還不如直接用Cuda。

泓君:所以你的核心觀點是它動搖了英偉達的兩大核心壁壘NVLink和Cuda,那從GPU的需求上來看呢?

John Yue: 我沒覺得動搖了這兩個壁壘, 目前英偉達的兩個壁壘還是很堅挺的,只是對溢價有沖擊,可能你收不了那么高的價格了,但這不意味著其他競品能突然就進來。

泓君:它是一個非常漫長的過程?

John Yue:其他競品做的跟這兩個壁壘不太一樣。可以針對單個模型繞過CUDA,但還沒人能做出通用的替代方案。所以實際上沒有撼動英偉達的壁壘。就像一堵墻,大家以前都覺得翻不過去,現在DeepSeek跳過去了。那其他人能不能過來呢?它只是提供了一個精神上的鼓勵。

泓君:對GPU的需求會減少嗎?因為DeepSeek這次訓練成本低,從某種程度上來說,股價下跌也意味著,是不是用更少的GPU就能訓練出更好的模型了?

John Yue:如果只看訓練這一個模型的話,確實是這樣。但DeepSeek真正的重大意義在于重新激發了AI從業者的熱情。這樣看的話,應該會有更多的公司進入市場,他們會購買更多的芯片。所以這件事可能會導致溢價降低但銷售量增加。至于最終市值是增加還是減少,要看這個比例關系。

泓君:你怎么看?

John Yue:這個不好說,關鍵還是要看應用。到2025年,大家能開發出什么樣的應用。如果之前應用發展的主要阻力是GPU價格的話,那隨著價格降到十分之一甚至更低,這個阻力就消除了,市值應該會上漲。但如果主要阻力在其他方面,那就很難說了。

泓君:其實就是說,隨著AI應用的增多,DeepSeek降低了門檻,從GPU需求來看,整體上反而對英偉達更有利。

John Yue:對。因為這些應用開發者不會自己組建團隊去重復DeepSeek的工作,比如繞過Cuda去調用PTX。一些小公司他們需要開箱即用的解決方案。所以這對英偉達有利,英偉達最希望看到的就是更多AI公司的出現。

泓君:更多的AI公司出來,他們需要的是訓練模型的GPU,還是更多的推理?

John Yue:我個人覺得,推理芯片領域未來也會是英偉達,我不覺得這些小公司長期有一些優勢,它短期大家都有優勢。長期我覺得推理是英偉達,訓練也是英偉達。

泓君:為什么推理也是英偉達?

John Yue:因為它還是CUDA,還是這個行業的龍頭。剛才提到的兩個壁壘也沒有被動搖。

現在的ASIC(專用集成電路)公司主要面臨兩個問題:軟件支持不足,硬件缺乏壁壘。在硬件上,我沒看到很強的壁壘,大家基本趨于同質化。

軟件則是另一個大問題。這些ASIC公司在軟件維護方面做得都不夠好,連PTX層面的維護都不夠完善。這兩個因素導致英偉達還是一直占有龍頭地位。

泓君:推理芯片對軟件的要求也同樣高嗎?在整個GPU跟訓練的這個芯片上,英偉達有絕對的壟斷地位,因為你是離不開或者很難繞過這一套系統的,但是推理訓練上,方便繞過去嗎?

John Yue:推理對軟件要求也很高,還是需要調用GPU的底層指令。Grok在軟件方面比英偉達差距還很大。你看他們現在的模式越來越重,從最初只做芯片,到現在自建數據中心,再到做自己的云服務。等于是在構建一個完整的垂直產業鏈。但它的資金跟英偉達相比差距很大,憑什么能做得更好?

泓君:現在市場上有值得關注的芯片公司嗎?

John Yue:我覺得AMD有一定機會,但其他的ASIC公司可能還差一些。即便是AMD,與英偉達相比也還有很長一段距離。

我個人覺得,如果要在芯片領域創新,可能更應該聚焦在芯片的軟件維護上,而不是在硬件上做改變。比如在DDR(雙倍數據速率)、Tensor Core(張量計算核心)、CUDA Core(通用計算核心)之間調整比例,這其實意義不大。這樣做等于是在幫英偉達當大頭兵,看看這種比例的產品是否有市場,但你建立不了什么壁壘。

但是在軟件這塊還有很大的優化空間,比如開發一套比CUDA更優秀的軟件系統。這可能會有很大的機會,但也不是一件容易的事情。

03 開源生態:降低AI應用的準入門檻

泓君:你們覺得DeepSeek選擇開源的這條路,對行業的生態具體會有哪些影響?最近在美國的reddit上,很多人已經開始去部署DeepSeek的模型了。它選了開源以后,這個開源到底是怎么去幫助DeepSeek把模型做得更好的?

John Yue:最近我們也部署了一些DeepSeek的模型在我們平臺上面,我覺得他開源是一件對整個AI行業非常好的事情。因為去年下半年以后,大家會感覺有一點失落,因為AI應用看起來都起不來。起不來有一大原因就是很多人覺得Open AI把所有應用的壁壘都能打掉了個百分之八九十,大家都是比較惶恐的。就是我做一個什么東西,明年OpenAI出個o4,就把我東西全部覆蓋了。

那我如果做這個東西建立在OpenAI上的話,它出一個新的模型,把我的應用完全包含進去了;我在價格上也沒法跟他爭,我在功能上沒法跟他爭,這就導致很多公司不太敢去做,VC也不太敢進來。

這次DeepSeek開源,對整個行業的一個好處:我現在用的是一個開源做得非常好的一個模型,那這樣的話我有一定的這種連續性,我就有更大的更多的信心去做更多的應用。

DeepSeek如果有能力去超過OpenAI的話,那對整個行業就更好了。就等于說是有一條惡龍現在它不存在了,大家發展的就能更好一些。

更多人用它,它就跟LlaMA的邏輯是一樣的,有更多人用,有更多反饋,所以它的模型能做得更好。DeepSeek也是這樣,如果有更多的應用開發者,它收集數據的速度肯定是比其他模型快很多。

泓君:現在我們能看到一個開源的模型,它在整個的性能上已經跟OpenAI的o1,基本上是一個量級的。那可以預期OpenAI它發了o3 mini之后,開源模型可能也會升級,也會有下一個版本再來超過這些閉源模型的。我在想當一個開源模型它的性能足夠好的時候,OpenAI這些閉源模型它存在的意義是什么?因為大家就直接可以拿到最好的開源模型的底座去用了。

John Yue:DeepSeek的意義在于它的價格降了很多,它是開源的。

不是說比OpenAI已經好了。閉源模型還會是領先的一個趨勢。開源的意義可能就在于它會像安卓一樣,誰都可以用,然后非常便宜。這樣它降低了進入行業的門檻,所以它才是真正讓這個行業蓬勃的一個因素。

這些閉源的模型它有可能是一直領先的。閉源如果還不如開源,那可能就沒有意義,但它應該是有管理上面的優勢,可以超過開源模型。

泓君:那現在看起來確實是有一批閉源不如開源的。

John Yue:那就自求多福,如果閉源還不如開源,我也不知道這公司在干什么,你還不如免費好。

陳羽北:我覺得開源的生態是非常重要的。因為我除了在實驗室以外,我之前參與一家公司叫AIZip,也做很多的全棧的這種AI應用。然后你會發現一件事情,很多這種開源的模型你直接是無法使用的,就是產品級的東西你無法直接使用這些開源的模型。但是如果有這樣的開源的模型,可能會大大提高你生產出一個這種產品級的模型的能力,大大提高你的效率。

所以你像DeepSeek也好,LlaMA也好,我覺得這種開源的這種生態對于整個的社區來講是至關重要的一件事情。因為它降低了所有的AI應用準入門檻。那見到更多的AI的應用,它有更多的觸及這件事情是對于每一個做AI的人是一個非常利好的消息。

所以我認為Meta在做的這件事情很重要,LlaMA一直在堅持開源構建,這樣讓所有的AI的開發者都可以做自己的應用,雖然LlaMA并沒有把這個應用直接給你做完,他給你提供了一個Foundation。Foundation顧名思義它就是一個地板,對吧?你可以在這個地板之上,你可以構建你所想要構建的這種應用,但是他把90%的任務給你做好了。

我認為更好的Foundation對于整個生態是非常重要的。OpenAI下大功夫來優化的一些能力的話,它依然會有這樣的優勢。但是我們也不希望這個市場上只有OpenAI,那對于所有的人來講可能都是一個不利的消息。

04 API價格下降與小模型的想象空間

泓君:DeepSeek是怎么把API接口的價格給降下來的?因為我看了一下它的這個R1官網寫的是,每百萬輸入的Token,緩存命中的是1塊錢,緩存未命中的是4塊錢,每百萬輸出的Token是16塊錢。o1的價格我整體算了一下,差不多每個檔位都是他們的26到27倍之高。它是怎么把這個API的成本給降下來的?

John Yue:它等于是從上到下做了整個的一套優化。從PTX這塊怎么調用,底下的GPU到MOE的架構,到Low Balance,它都做了一套優化。

這里面可能最重要的一點,就是它可以降低了對芯片的要求。你本來非得在H100上,A100上跑,你現在可以用稍微低端一些(的芯片),或者你甚至可以用Grok。你可以用國內的那些嚴格版的H800這些卡去跑。那這樣,它其實就已經大幅度地降低了每個Token的成本。

它里頭如果再做優化,比如切分GPU,它其實可以降下來很多。而且OpenAI內部其實也說不定人家早都降下來了,它只是不想降Retail的價格,這也不確定。

我覺得主要就是這兩個吧,一個是架構上,一個是芯片,可以降級了。

泓君:芯片降級未來會成為行業的普遍現象嗎?

John Yue:我覺得不會,因為英偉達已經停產了所有老芯片,市面上數量有限。比如說雖然可以在V100上運行,但V100早就停產了。而且每年都要計算折舊,可能過兩年市面上就找不到V100了。英偉達只會生產最新的芯片。

泓君:那它的成本還是低的嗎?

John Yue:如果在新芯片上做一些優化,比如我們這種GPU切分方案,成本是可能降低的。因為模型變小了。我們最近運行它的7B模型,只需要大約20GB。我們可以把一張H100切成三份來運行DeepSeek,這樣成本直接降低三分之一。

我覺得未來可能會更多地使用虛擬化GPU來降低成本。僅僅依靠老卡和游戲卡是不現實的,原因有幾個,一是英偉達有黑名單機制,不允許用游戲卡正式部署這些模型;老卡除了停產問題,還有很多維護方面的問題。所以我不認為芯片降級會成為主流現象。

泓君:所以現在你們是在為客戶提供芯片優化,幫助節省成本。那你最近客戶應該是暴增,你覺得這個是受益于DeepSeek,還是說你們一直在做這件事情?

John Yue:我們從去年就開始做這件事,一直在賭未來會有更多的小模型。DeepSeek出來后,就像剛才說的,它帶來了一個趨勢,會蒸餾出更多的小模型。如果大家要運行更多小模型,就需要不同型號的芯片,每次都用物理芯片可能比較困難。

泓君:DeepSeek降低了整個API成本,你剛才也分析了它的研究方法。你覺得這套研究方法未來有可能用在更多場景中嗎,比如你們在做GPU分片和客戶模型時?會不會引發整個行業對GPU成本的節省?

John Yue: 應該可以。DeepSeek的出現向行業證明了現在有更優的強化學習方法。我覺得后面肯定會有很多人采用相同的方法。在調用CUDA這塊,以前可能沒人敢嘗試,他們證明了幾個博士畢業生也能很快繞過CUDA,后面可能很多模型公司都會效仿,這樣大家都這么做的話,成本肯定會下降。

泓君:所以我理解現在訓練成本降低了,推理成本也大幅下降了,那你們現在幫客戶去部署這種GPU的時候,客戶的主要需求是什么?

John Yue:簡單便捷、快速部署和低價格。我們能解決部署成本問題,因為確實存在很多浪費。比如一張A100或H100都是80GB,但如果你要蒸餾出一些小模型,或者使用現有的Snowflake、Databricks那種模型,可能只需要10GB,有的更小。在80GB的GPU上部署10GB的內容,就等于大部分GPU都浪費了,但你還是要支付整個GPU的費用。

另外,推理(Inference)時工作負載是彈性的,有時客戶增多,有時減少。如果每張卡上都有浪費的空間,擴展時每張卡都會有這樣的浪費。我們現在做的是將其虛擬化,這樣就完全沒有浪費,就等于比較簡單粗暴地解決了很多GPU部署成本的問題。

陳羽北:這個領域其實還有一個有意思的方向,小模型在過去6到8個月的進展非常快,這可能帶來一個變革。之前全世界99%的算力對大家是不可見的,人們不會意識到ARM芯片或高通芯片里具備AI能力。未來如果有大量小語言模型、視覺語言模型(VLM)、音頻智能等能力,可能會越來越多地出現在曾經不會被用到的平臺上,比如特斯拉的車上已經用到了很多。

你會發現越來越多的設備,比如手機、耳機、智能眼鏡,現在是一個火爆品類,很多公司都在做,都會搭載設備端On-Device AI。這對降低成本、提高AI可用性有巨大機會。

泓君:小模型好用嗎?

陳羽北:小模型其實在很多的領域有很多的基本的應用。當你把小模型給到足夠的訓練以后,它最終和大模型的性能差不多。

泓君:說一個具體的應用場景。

陳羽北:比如說,我們用到這個話筒,里面有降噪功能,可以用一個極小的神經網絡實現,這個神經網絡可以放在話筒里。即使把模型放大10倍、100倍,性能差異也不會很大。

這樣的功能會越來越多地被集成進來,比如小語言模型可以放在智能手表上,做一些基本的問答、調用API,完成基本工作。更復雜的任務可以轉移到云端,形成分層的智能系統。現在一個智能手表就能做非常復雜的推理了。手機上的高通芯片,推理能力可以達到50TOPS(每秒萬億次操作),這是一個很大的算力,與A100相差不大。很多小模型可以勝任大模型已經在做的事情,這對降低成本、提高AI的普及程度有很大幫助。

泓君:小模型是本地的還是聯網的?

陳羽北:本地的。

泓君:所以未來我們整個世界里面可能會有各種各樣的小模型。當這個小模型不夠用的時候,它再去調動這種大模型,這樣就可以極大地節省這一部分的推理成本?

陳羽北: 對,我認為未來AI的基礎設施應該是分層的。最小的可以到終端設備,在傳感器里做一些基本的運算。在邊緣端會有更多的AI功能,再到云端,形成端-邊-云的完整體系。

我之前提到過一個數字,如果做個簡單計算,把全世界終端和邊緣端的算力加起來,會是全球HPC(高性能計算)中GPU算力的100倍。這是個非常可怕的一件事,因為體量太大了。高性能GPU的出貨量可能在百萬片級別,但手機和邊緣端設備可能達到百億級別,到傳感器這個級別可能還要再大一兩個數量級。當體量上去后,加起來的算力是極其龐大的。

泓君:那芯片夠用嗎?比如說高通的芯片。

陳羽北:它可以做很多很復雜的功能。從小語言模型到VLM(視覺語言模型),再到音頻的ASR(自動語音識別)等。對于這些我稱之為"初級AI功能"的任務,無論是代理型還是感知型,在邊緣平臺和終端設備上都能完成。最復雜的任務則會轉移到云端處理。

另一個是全球90%到99%的數據其實都在終端和邊緣端。但現在大多數情況下是“用掉就丟”(use it or lose it)。比如,你不可能把攝像頭的所有視頻都傳到云端。如果在終端和邊緣端有AI功能,就可以篩選出最有價值的數據上傳,這的價值是巨大的。目前這些數據都還沒有被充分利用。

未來當初級AI功能增多后,這些初級AI模型反而可以作為大模型的一種數據壓縮工具。

泓君:現在大家部署的是DeepSeek的小模型嗎,還是LlaMA的?

陳羽北:其實可能都不是。整個生態里有Qwen,LlaMa,還有DeepSeek,也有很多自研的,所以我覺得整個生態里面,只能說是越來越多的這樣的小模型在涌現,而且它們的能力在快速提高。

泓君:選模型看重什么關鍵點?

陳羽北:首先是效率問題:模型必須運行快速,體積要小。

但更重要的是質量要求:沒有人會為一個又快又小但不好用的模型付費。模型必須能夠勝任它要處理的任務。這就是我所說的AI魯棒性,這一點非常重要。比如說話筒的降噪功能,它必須能保證音質。如果處理后的聲音很粗糙,沒人會使用它,大家還是會選擇用后期處理軟件。

泓君:所以在應用端的話,大家看的并不是說最前沿的模型是什么,而是說最適合我的模型是什么,然后選成本最低的就可以了。

05 提問DeepSeek:數據與持續創新能力

泓君:因為現在關于DeepSeek很多的信息都已經公開出來了,你們對這家公司還有沒有非常好奇的問題?

陳羽北:在他們發表的文章中,具體的數據構成并沒有被詳細披露,很多訓練細節也只是在宏觀層面提及。當然,我理解不是所有內容都應該公開,這個要求不合理。但如果能提供更多細節,讓其他人更容易復現這項工作,可能會更好。所有前沿研究實驗室都有這樣的趨勢,在涉及數據這塊時都比較含糊。

泓君:有些連OpenAI都不敢寫,所有的大模型公司問到數據他們都是不敢答的。

陳羽北:連數據是如何平衡的、時長以及具體的處理流程這些都沒有寫出來。我理解不寫具體的數據組成,但至少可以寫一下數據是如何整理的。但很多時候這些細節大家都不寫,而我覺得這些恰恰是最關鍵的部分。其他一些方法反而很容易想到,比如用搜索方法來做推理規劃,或者當模型夠好時,用自舉方法提高性能,再或者用大模型直接自舉出結果給小模型。

真正難想到的是兩個方面:數據的具體構成和架構中的底層創新。我覺得這些才是最關鍵的內容。

John Yue:我比較關注DeepSeek這家公司是否能持續給大家驚喜,繼續挑戰OpenAI。如果它能不斷給我們帶來驚喜,讓大家最終都在DeepSeek上開發應用,那對整個芯片和基礎設施領域的格局確實會帶來較大改變。

就像我剛才說的,DeepSeek已經繞過CUDA去適配很多東西,如果它能繼續保持這個位置,其他芯片廠商可能也會有機會,這對英偉達的生態系統也會構成一定挑戰,溢價肯定會下降。但如果下一個模型,比如Llama 4出來,假如它比DeepSeek好很多,那可能又要重新回到起點。

本文為轉載內容,授權事宜請聯系原著作權人。

英偉達

7.2k
  • 英偉達大漲超4%再創歷史新高!黃仁勛重磅發聲,納指100ETF(159660)沖擊三連漲,下半年美股市場怎么看?機構分析!
  • YU7標準版比SU7標準版貴2萬?雷軍回應

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

DeepSeek技術解析:如何沖擊英偉達兩大壁壘?

如何突破NVLink和Cuda?

文|硅谷101

DeepSeek的V3模型僅用557.6萬的訓練成本,實現了與OpenAI O1推理模型相近的性能,這在全球范圍內引發連鎖反應。由于不用那么先進的英偉達芯片就能實現AI能力的飛躍,英偉達在1月27日一天跌幅高達17%,市值一度蒸發6000億美元。一部分投資人擔心這會減少市場對先進芯片的需求,但科技圈也普遍存在另一種相反的觀點:一個高性能、低成本和開源的大模型會帶來整個應用生態的繁榮,反而會利好英偉達的長期發展。

這兩種矛盾的觀點正左右博弈。但如果從技術層面分析,DeepSeek對英偉達、芯片甚至是整個科技行業的影響并不是如此簡單。比如本期嘉賓Inference.ai創始人兼CEO John Yue認為,DeepSeek沖擊了英偉達兩大壁壘——NVLink與CUDA,這在某種程度上打掉了英偉達的溢價,但也并未沖垮壁壘。

本期節目,主理人泓君邀請到加州大學戴維斯分校電子計算機工程系助理教授、AIZip的聯合創始人陳羽北,以及Inference.ai創始人兼CEO John Yue,詳細解讀DeepSeek核心的技術創新以及對芯片市場的影響。

以下是部分訪談精選

01 DeepSeek的核心創新是基礎模型能力

泓君:能不能先從技術上分析一下DeepSeek比較讓人驚艷的地方?

陳羽北:從DeepSeek這次的進展來看,雖然強化學習在其中占據重要地位,但我認為基礎模型DeepSeek V3本身的能力才是關鍵。這一點從DeepSeek的論文數據中可以得到印證——在R1 Zero未經過強化學習時,每生成100條內容就有約10%的成功率,這已經是非常顯著的提升。

DeepSeek這次采用的是GRPO(分組相對策略優化)的方法,有人提出使用PPO(近端策略優化)等其他強化學習方法也能達到類似效果。

這告訴我們一個重要信息:當基礎模型的能力達到一定水平后,如果能找到合適的獎勵函數,就可以通過類似search的方法實現自我提升。所以這次進展傳遞了一個積極的信號,但強化學習在其中反而起到次要作用,基礎模型的能力才是根本。

泓君:總結你的觀點,DeepSeek之所以好本質上還是因為V3的表現非常驚艷,因為用比如MoE等各種方式,去讓這個基礎模型性能更好。R1只是在這個基礎模型之上的一次升級,但是你覺得V3比R1-Zero更加重要

陳羽北:我覺得他們都有一些重要的點。從V3來看,主要集中在模型架構效率的提升上,其中有兩個重要的工作:一個是混合專家網絡(MoE)。以前不同專家(expert)的負載均衡(load balance)做得不太好,在分散到不同節點時的時候,它的Load Balance會有問題,,所以他們對負載均衡做了優化。

其次,它在Attention Layer上,他要節省鍵值緩存(KV Cache),其實這也是在提高架構的效率。這兩點作為它的核心創新,使得它在600多B的大模型上,使得基礎模型的能力表現已經挺不錯的了。在DeepSeek R1 Zero中,他們首先設計了一個簡單直觀的基于規則(rule-based)的獎勵函數。基本要求是確保數學題的答案和回答格式都完全正確。他們采用了DeepSeek V3的方法:對每個問題生成100條回答,然后從中篩選出正確答案來增強正確回答的比重。

這種方法實際上繞過了強化學習(reinforcement learning)中最難處理的稀疏獎勵問題——如果我回答100條、回答1萬條它都不對,那我其實就沒有辦法去提升了。但如果任務已經有一定成功率,就可以著重強化這些成功的部分,這樣就把稀疏獎勵轉變為相對稠密的獎勵,也就不需要去搭橋、去建模、去構建中間的獎勵函數了。借助V3的基礎能力,R1 Zero告訴我們,如果這個模型的基礎能力已經不錯了,那么我是有可能通過這個模型自我來進行提升的。其實這種思路和Model Predictive Control和世界模型,是有很多的相似之處的。

第二個是讓大模型訓練小模型,看似是一個顯而易見但是這次也產生了重大影響力的一個結果。他們先訓練了一個600 多B的大模型,通過自啟發式回答100個問題,然后用自我引導(Bootstrap)方法逐漸提高這個能力,將成功率從10%提升到70-80%。這個大模型還可以用來教導小模型。

他們做了一個有意思的實驗,在Qwen上做了從1.5B一直到30幾B的各種大小的蒸餾學習,用大模型學到的推理和計劃能力來提升小模型在相關問題上的表現。這是一個相對容易想到的方向,因為在所有的自我增強、模型預測控制(model predictive control)和基于模型的強化學習(model-based reinforcement learning)中,如果模型本身不夠好,通過搜索方法來提升效果都不會很理想。但如果用一個搜索能力強、表現好的大模型,直接把學到的能力傳授給小模型,這種方法是可行的。

泓君:所以從整體上看,DeepSeek采用的是一個組合拳策略,從V3到R1-Zero再到R1的每一步演進,在方向選擇上都有其可取之處。那么在硅谷的公司中,像OpenAI、Gemini、Claude以及LlaMA,他們是否也采用了類似的模型訓練方法呢?

陳羽北:我覺得很多這樣的想法在之前的研究工作中就已經出現過。

比如DeepSeek V3模型中使用的多頭潛在注意力機制(Multihead Latent Attention),Meta之前就發表過一篇關于多令牌層(Multi-Token Layer)的研究,效果也很相似。另外,在推理和規劃(Reasoning and Planning)方面,之前也有過很多相關研究,還有在獎勵機制和基于模型的方法(Model-Based Method)等這些方面。

其實我恰恰覺得這次DeepSeek R1 Zero的命名在一定程度上和AlphaZero有點像。

02 對英偉達利好與利空:沖擊溢價但并未沖垮壁壘

泓君:想問一下John,因為你是GPU行業的,你覺得DeepSeek R1對英偉達,它到底是利好還是利空?為什么英偉達的股價會跌?

John Yue:這應該是一把雙刃劍,既有利好也有利空。

利好方面很明顯,DeepSeek的出現給了人們很多想象空間。以前很多人已經放棄做AI模型,現在它給了大家信心,讓更多初創企業出來探索應用層面的可能性。如果有更多人做應用,這其實是英偉達最希望看到的局面,因為整個AI行業被盤活后,大家都需要購買更多的卡。所以從這個角度看,這對英偉達更有利。

而不利的一面是英偉達的溢價確實受到了一些沖擊。很多人一開始認為它的壁壘被沖倒了,導致股價大跌。但我感覺實際情況并沒有那么嚴重。

泓君:壁壘是什么?

John Yue: 英偉達有兩個最大的壁壘:一個是Infiniband(芯片互聯技術);另一個是CUDA(圖形計算統一架構),它那整套調用GPU的系統,與AMD等其他芯片公司已經不在同一層面競爭了。其他公司都在爭單張顯卡的性能,而英偉達比拼的是芯片互聯技術以及軟件調用和生態系統的維護。對于這兩個壁壘,DeepSeek確實都稍微沖擊到了它的溢價,但并沒有把壁壘完全沖垮。

具體來說,對英偉達溢價的沖擊體現在:

  1. MOE的優化實際上在一定程度上削弱了英偉達互聯的這一部分重要性。現在的情況是,我可以把不同的expert放在不同的計算卡上,使得卡與卡之間的互聯不再那么關鍵。而且,一些暫時不需要工作的expert可以進入休眠狀態,這對于英偉達互聯技術的需求確實帶來了一定沖擊。
  2. 另一方面,在CUDA方面,這其實是在告訴大家,現在存在一種新的可能性。以前大家可能都認為繞不開CUDA,而現在我們的(指DeepSeek)團隊已經證明,確實可以“繞開”CUDA,直接使用PTX進行優化,這并不意味著所有團隊以后都具備這樣的能力,但至少,它提供了一種可行的方案——也就是說,現在有可能做到這件事。而這種可能性會導致,未來我不一定非要購買英偉達的顯卡,或者說,不需要最先進的英偉達顯卡,或者可以使用更小型的英偉達顯卡來運行模型。

泓君:什么叫做繞過CUDA,它是真的繞過CUDA了嗎?我聽到的說法是說,它用的不是CUDA比較高層的API,但還是用了比較底層的API。

John Yue:對,我用詞不太準確,準確地說并沒有完全繞過CUDA的生態,而是可以直接調用更底層的庫,不是使用高層API,而是直接調用PTX(并行線程執行)——這是一個指令集上面一層的指令集層級,然后在這一層直接進行優化。不過這也是一個很大的工程,并不是任何一個小公司都有能力去做這件事情。

泓君:如果DeepSeek具備了這種能力,其他公司是否也能獲得類似能力?假設現在買不到英偉達的GPU,轉而使用AMD的GPU,那你剛才提到NVIDIA的兩個核心壁壘:NVLink和CUDA,在某種程度上受到沖擊,這對AMD這樣的公司來說是否是一個利好?

John Yue: 短期來看對AMD是個利好,因為AMD最近已經宣布將DeepSeek給移植過去了。但長期來看,可能還是英偉達占優勢。這畢竟只是DeepSeek這一個模型,而CUDA厲害的地方在于它是通用的GPU調用系統,任何軟件都可以用CUDA。DeepSeek這種做法只支持DeepSeek自己,如果有新的模型出現,還要重新適配一次。

我們就是在賭DeepSeek是否真的能成為業界標準,成為下一個OpenAI,讓所有初創企業都在它的基礎上構建。如果是這樣,對AMD來說確實不錯,因為它已經完成了DeepSeek的移植。但如果不是DeepSeek呢?DeepSeek的優勢主要在于對強化學習和GRPO這些方法的改進。如果后面出現更多使用其他方法的模型,那又要重新適配,比起直接用CUDA要麻煩得多,還不如直接用Cuda。

泓君:所以你的核心觀點是它動搖了英偉達的兩大核心壁壘NVLink和Cuda,那從GPU的需求上來看呢?

John Yue: 我沒覺得動搖了這兩個壁壘, 目前英偉達的兩個壁壘還是很堅挺的,只是對溢價有沖擊,可能你收不了那么高的價格了,但這不意味著其他競品能突然就進來。

泓君:它是一個非常漫長的過程?

John Yue:其他競品做的跟這兩個壁壘不太一樣。可以針對單個模型繞過CUDA,但還沒人能做出通用的替代方案。所以實際上沒有撼動英偉達的壁壘。就像一堵墻,大家以前都覺得翻不過去,現在DeepSeek跳過去了。那其他人能不能過來呢?它只是提供了一個精神上的鼓勵。

泓君:對GPU的需求會減少嗎?因為DeepSeek這次訓練成本低,從某種程度上來說,股價下跌也意味著,是不是用更少的GPU就能訓練出更好的模型了?

John Yue:如果只看訓練這一個模型的話,確實是這樣。但DeepSeek真正的重大意義在于重新激發了AI從業者的熱情。這樣看的話,應該會有更多的公司進入市場,他們會購買更多的芯片。所以這件事可能會導致溢價降低但銷售量增加。至于最終市值是增加還是減少,要看這個比例關系。

泓君:你怎么看?

John Yue:這個不好說,關鍵還是要看應用。到2025年,大家能開發出什么樣的應用。如果之前應用發展的主要阻力是GPU價格的話,那隨著價格降到十分之一甚至更低,這個阻力就消除了,市值應該會上漲。但如果主要阻力在其他方面,那就很難說了。

泓君:其實就是說,隨著AI應用的增多,DeepSeek降低了門檻,從GPU需求來看,整體上反而對英偉達更有利。

John Yue:對。因為這些應用開發者不會自己組建團隊去重復DeepSeek的工作,比如繞過Cuda去調用PTX。一些小公司他們需要開箱即用的解決方案。所以這對英偉達有利,英偉達最希望看到的就是更多AI公司的出現。

泓君:更多的AI公司出來,他們需要的是訓練模型的GPU,還是更多的推理?

John Yue:我個人覺得,推理芯片領域未來也會是英偉達,我不覺得這些小公司長期有一些優勢,它短期大家都有優勢。長期我覺得推理是英偉達,訓練也是英偉達。

泓君:為什么推理也是英偉達?

John Yue:因為它還是CUDA,還是這個行業的龍頭。剛才提到的兩個壁壘也沒有被動搖。

現在的ASIC(專用集成電路)公司主要面臨兩個問題:軟件支持不足,硬件缺乏壁壘。在硬件上,我沒看到很強的壁壘,大家基本趨于同質化。

軟件則是另一個大問題。這些ASIC公司在軟件維護方面做得都不夠好,連PTX層面的維護都不夠完善。這兩個因素導致英偉達還是一直占有龍頭地位。

泓君:推理芯片對軟件的要求也同樣高嗎?在整個GPU跟訓練的這個芯片上,英偉達有絕對的壟斷地位,因為你是離不開或者很難繞過這一套系統的,但是推理訓練上,方便繞過去嗎?

John Yue:推理對軟件要求也很高,還是需要調用GPU的底層指令。Grok在軟件方面比英偉達差距還很大。你看他們現在的模式越來越重,從最初只做芯片,到現在自建數據中心,再到做自己的云服務。等于是在構建一個完整的垂直產業鏈。但它的資金跟英偉達相比差距很大,憑什么能做得更好?

泓君:現在市場上有值得關注的芯片公司嗎?

John Yue:我覺得AMD有一定機會,但其他的ASIC公司可能還差一些。即便是AMD,與英偉達相比也還有很長一段距離。

我個人覺得,如果要在芯片領域創新,可能更應該聚焦在芯片的軟件維護上,而不是在硬件上做改變。比如在DDR(雙倍數據速率)、Tensor Core(張量計算核心)、CUDA Core(通用計算核心)之間調整比例,這其實意義不大。這樣做等于是在幫英偉達當大頭兵,看看這種比例的產品是否有市場,但你建立不了什么壁壘。

但是在軟件這塊還有很大的優化空間,比如開發一套比CUDA更優秀的軟件系統。這可能會有很大的機會,但也不是一件容易的事情。

03 開源生態:降低AI應用的準入門檻

泓君:你們覺得DeepSeek選擇開源的這條路,對行業的生態具體會有哪些影響?最近在美國的reddit上,很多人已經開始去部署DeepSeek的模型了。它選了開源以后,這個開源到底是怎么去幫助DeepSeek把模型做得更好的?

John Yue:最近我們也部署了一些DeepSeek的模型在我們平臺上面,我覺得他開源是一件對整個AI行業非常好的事情。因為去年下半年以后,大家會感覺有一點失落,因為AI應用看起來都起不來。起不來有一大原因就是很多人覺得Open AI把所有應用的壁壘都能打掉了個百分之八九十,大家都是比較惶恐的。就是我做一個什么東西,明年OpenAI出個o4,就把我東西全部覆蓋了。

那我如果做這個東西建立在OpenAI上的話,它出一個新的模型,把我的應用完全包含進去了;我在價格上也沒法跟他爭,我在功能上沒法跟他爭,這就導致很多公司不太敢去做,VC也不太敢進來。

這次DeepSeek開源,對整個行業的一個好處:我現在用的是一個開源做得非常好的一個模型,那這樣的話我有一定的這種連續性,我就有更大的更多的信心去做更多的應用。

DeepSeek如果有能力去超過OpenAI的話,那對整個行業就更好了。就等于說是有一條惡龍現在它不存在了,大家發展的就能更好一些。

更多人用它,它就跟LlaMA的邏輯是一樣的,有更多人用,有更多反饋,所以它的模型能做得更好。DeepSeek也是這樣,如果有更多的應用開發者,它收集數據的速度肯定是比其他模型快很多。

泓君:現在我們能看到一個開源的模型,它在整個的性能上已經跟OpenAI的o1,基本上是一個量級的。那可以預期OpenAI它發了o3 mini之后,開源模型可能也會升級,也會有下一個版本再來超過這些閉源模型的。我在想當一個開源模型它的性能足夠好的時候,OpenAI這些閉源模型它存在的意義是什么?因為大家就直接可以拿到最好的開源模型的底座去用了。

John Yue:DeepSeek的意義在于它的價格降了很多,它是開源的。

不是說比OpenAI已經好了。閉源模型還會是領先的一個趨勢。開源的意義可能就在于它會像安卓一樣,誰都可以用,然后非常便宜。這樣它降低了進入行業的門檻,所以它才是真正讓這個行業蓬勃的一個因素。

這些閉源的模型它有可能是一直領先的。閉源如果還不如開源,那可能就沒有意義,但它應該是有管理上面的優勢,可以超過開源模型。

泓君:那現在看起來確實是有一批閉源不如開源的。

John Yue:那就自求多福,如果閉源還不如開源,我也不知道這公司在干什么,你還不如免費好。

陳羽北:我覺得開源的生態是非常重要的。因為我除了在實驗室以外,我之前參與一家公司叫AIZip,也做很多的全棧的這種AI應用。然后你會發現一件事情,很多這種開源的模型你直接是無法使用的,就是產品級的東西你無法直接使用這些開源的模型。但是如果有這樣的開源的模型,可能會大大提高你生產出一個這種產品級的模型的能力,大大提高你的效率。

所以你像DeepSeek也好,LlaMA也好,我覺得這種開源的這種生態對于整個的社區來講是至關重要的一件事情。因為它降低了所有的AI應用準入門檻。那見到更多的AI的應用,它有更多的觸及這件事情是對于每一個做AI的人是一個非常利好的消息。

所以我認為Meta在做的這件事情很重要,LlaMA一直在堅持開源構建,這樣讓所有的AI的開發者都可以做自己的應用,雖然LlaMA并沒有把這個應用直接給你做完,他給你提供了一個Foundation。Foundation顧名思義它就是一個地板,對吧?你可以在這個地板之上,你可以構建你所想要構建的這種應用,但是他把90%的任務給你做好了。

我認為更好的Foundation對于整個生態是非常重要的。OpenAI下大功夫來優化的一些能力的話,它依然會有這樣的優勢。但是我們也不希望這個市場上只有OpenAI,那對于所有的人來講可能都是一個不利的消息。

04 API價格下降與小模型的想象空間

泓君:DeepSeek是怎么把API接口的價格給降下來的?因為我看了一下它的這個R1官網寫的是,每百萬輸入的Token,緩存命中的是1塊錢,緩存未命中的是4塊錢,每百萬輸出的Token是16塊錢。o1的價格我整體算了一下,差不多每個檔位都是他們的26到27倍之高。它是怎么把這個API的成本給降下來的?

John Yue:它等于是從上到下做了整個的一套優化。從PTX這塊怎么調用,底下的GPU到MOE的架構,到Low Balance,它都做了一套優化。

這里面可能最重要的一點,就是它可以降低了對芯片的要求。你本來非得在H100上,A100上跑,你現在可以用稍微低端一些(的芯片),或者你甚至可以用Grok。你可以用國內的那些嚴格版的H800這些卡去跑。那這樣,它其實就已經大幅度地降低了每個Token的成本。

它里頭如果再做優化,比如切分GPU,它其實可以降下來很多。而且OpenAI內部其實也說不定人家早都降下來了,它只是不想降Retail的價格,這也不確定。

我覺得主要就是這兩個吧,一個是架構上,一個是芯片,可以降級了。

泓君:芯片降級未來會成為行業的普遍現象嗎?

John Yue:我覺得不會,因為英偉達已經停產了所有老芯片,市面上數量有限。比如說雖然可以在V100上運行,但V100早就停產了。而且每年都要計算折舊,可能過兩年市面上就找不到V100了。英偉達只會生產最新的芯片。

泓君:那它的成本還是低的嗎?

John Yue:如果在新芯片上做一些優化,比如我們這種GPU切分方案,成本是可能降低的。因為模型變小了。我們最近運行它的7B模型,只需要大約20GB。我們可以把一張H100切成三份來運行DeepSeek,這樣成本直接降低三分之一。

我覺得未來可能會更多地使用虛擬化GPU來降低成本。僅僅依靠老卡和游戲卡是不現實的,原因有幾個,一是英偉達有黑名單機制,不允許用游戲卡正式部署這些模型;老卡除了停產問題,還有很多維護方面的問題。所以我不認為芯片降級會成為主流現象。

泓君:所以現在你們是在為客戶提供芯片優化,幫助節省成本。那你最近客戶應該是暴增,你覺得這個是受益于DeepSeek,還是說你們一直在做這件事情?

John Yue:我們從去年就開始做這件事,一直在賭未來會有更多的小模型。DeepSeek出來后,就像剛才說的,它帶來了一個趨勢,會蒸餾出更多的小模型。如果大家要運行更多小模型,就需要不同型號的芯片,每次都用物理芯片可能比較困難。

泓君:DeepSeek降低了整個API成本,你剛才也分析了它的研究方法。你覺得這套研究方法未來有可能用在更多場景中嗎,比如你們在做GPU分片和客戶模型時?會不會引發整個行業對GPU成本的節省?

John Yue: 應該可以。DeepSeek的出現向行業證明了現在有更優的強化學習方法。我覺得后面肯定會有很多人采用相同的方法。在調用CUDA這塊,以前可能沒人敢嘗試,他們證明了幾個博士畢業生也能很快繞過CUDA,后面可能很多模型公司都會效仿,這樣大家都這么做的話,成本肯定會下降。

泓君:所以我理解現在訓練成本降低了,推理成本也大幅下降了,那你們現在幫客戶去部署這種GPU的時候,客戶的主要需求是什么?

John Yue:簡單便捷、快速部署和低價格。我們能解決部署成本問題,因為確實存在很多浪費。比如一張A100或H100都是80GB,但如果你要蒸餾出一些小模型,或者使用現有的Snowflake、Databricks那種模型,可能只需要10GB,有的更小。在80GB的GPU上部署10GB的內容,就等于大部分GPU都浪費了,但你還是要支付整個GPU的費用。

另外,推理(Inference)時工作負載是彈性的,有時客戶增多,有時減少。如果每張卡上都有浪費的空間,擴展時每張卡都會有這樣的浪費。我們現在做的是將其虛擬化,這樣就完全沒有浪費,就等于比較簡單粗暴地解決了很多GPU部署成本的問題。

陳羽北:這個領域其實還有一個有意思的方向,小模型在過去6到8個月的進展非常快,這可能帶來一個變革。之前全世界99%的算力對大家是不可見的,人們不會意識到ARM芯片或高通芯片里具備AI能力。未來如果有大量小語言模型、視覺語言模型(VLM)、音頻智能等能力,可能會越來越多地出現在曾經不會被用到的平臺上,比如特斯拉的車上已經用到了很多。

你會發現越來越多的設備,比如手機、耳機、智能眼鏡,現在是一個火爆品類,很多公司都在做,都會搭載設備端On-Device AI。這對降低成本、提高AI可用性有巨大機會。

泓君:小模型好用嗎?

陳羽北:小模型其實在很多的領域有很多的基本的應用。當你把小模型給到足夠的訓練以后,它最終和大模型的性能差不多。

泓君:說一個具體的應用場景。

陳羽北:比如說,我們用到這個話筒,里面有降噪功能,可以用一個極小的神經網絡實現,這個神經網絡可以放在話筒里。即使把模型放大10倍、100倍,性能差異也不會很大。

這樣的功能會越來越多地被集成進來,比如小語言模型可以放在智能手表上,做一些基本的問答、調用API,完成基本工作。更復雜的任務可以轉移到云端,形成分層的智能系統。現在一個智能手表就能做非常復雜的推理了。手機上的高通芯片,推理能力可以達到50TOPS(每秒萬億次操作),這是一個很大的算力,與A100相差不大。很多小模型可以勝任大模型已經在做的事情,這對降低成本、提高AI的普及程度有很大幫助。

泓君:小模型是本地的還是聯網的?

陳羽北:本地的。

泓君:所以未來我們整個世界里面可能會有各種各樣的小模型。當這個小模型不夠用的時候,它再去調動這種大模型,這樣就可以極大地節省這一部分的推理成本?

陳羽北: 對,我認為未來AI的基礎設施應該是分層的。最小的可以到終端設備,在傳感器里做一些基本的運算。在邊緣端會有更多的AI功能,再到云端,形成端-邊-云的完整體系。

我之前提到過一個數字,如果做個簡單計算,把全世界終端和邊緣端的算力加起來,會是全球HPC(高性能計算)中GPU算力的100倍。這是個非常可怕的一件事,因為體量太大了。高性能GPU的出貨量可能在百萬片級別,但手機和邊緣端設備可能達到百億級別,到傳感器這個級別可能還要再大一兩個數量級。當體量上去后,加起來的算力是極其龐大的。

泓君:那芯片夠用嗎?比如說高通的芯片。

陳羽北:它可以做很多很復雜的功能。從小語言模型到VLM(視覺語言模型),再到音頻的ASR(自動語音識別)等。對于這些我稱之為"初級AI功能"的任務,無論是代理型還是感知型,在邊緣平臺和終端設備上都能完成。最復雜的任務則會轉移到云端處理。

另一個是全球90%到99%的數據其實都在終端和邊緣端。但現在大多數情況下是“用掉就丟”(use it or lose it)。比如,你不可能把攝像頭的所有視頻都傳到云端。如果在終端和邊緣端有AI功能,就可以篩選出最有價值的數據上傳,這的價值是巨大的。目前這些數據都還沒有被充分利用。

未來當初級AI功能增多后,這些初級AI模型反而可以作為大模型的一種數據壓縮工具。

泓君:現在大家部署的是DeepSeek的小模型嗎,還是LlaMA的?

陳羽北:其實可能都不是。整個生態里有Qwen,LlaMa,還有DeepSeek,也有很多自研的,所以我覺得整個生態里面,只能說是越來越多的這樣的小模型在涌現,而且它們的能力在快速提高。

泓君:選模型看重什么關鍵點?

陳羽北:首先是效率問題:模型必須運行快速,體積要小。

但更重要的是質量要求:沒有人會為一個又快又小但不好用的模型付費。模型必須能夠勝任它要處理的任務。這就是我所說的AI魯棒性,這一點非常重要。比如說話筒的降噪功能,它必須能保證音質。如果處理后的聲音很粗糙,沒人會使用它,大家還是會選擇用后期處理軟件。

泓君:所以在應用端的話,大家看的并不是說最前沿的模型是什么,而是說最適合我的模型是什么,然后選成本最低的就可以了。

05 提問DeepSeek:數據與持續創新能力

泓君:因為現在關于DeepSeek很多的信息都已經公開出來了,你們對這家公司還有沒有非常好奇的問題?

陳羽北:在他們發表的文章中,具體的數據構成并沒有被詳細披露,很多訓練細節也只是在宏觀層面提及。當然,我理解不是所有內容都應該公開,這個要求不合理。但如果能提供更多細節,讓其他人更容易復現這項工作,可能會更好。所有前沿研究實驗室都有這樣的趨勢,在涉及數據這塊時都比較含糊。

泓君:有些連OpenAI都不敢寫,所有的大模型公司問到數據他們都是不敢答的。

陳羽北:連數據是如何平衡的、時長以及具體的處理流程這些都沒有寫出來。我理解不寫具體的數據組成,但至少可以寫一下數據是如何整理的。但很多時候這些細節大家都不寫,而我覺得這些恰恰是最關鍵的部分。其他一些方法反而很容易想到,比如用搜索方法來做推理規劃,或者當模型夠好時,用自舉方法提高性能,再或者用大模型直接自舉出結果給小模型。

真正難想到的是兩個方面:數據的具體構成和架構中的底層創新。我覺得這些才是最關鍵的內容。

John Yue:我比較關注DeepSeek這家公司是否能持續給大家驚喜,繼續挑戰OpenAI。如果它能不斷給我們帶來驚喜,讓大家最終都在DeepSeek上開發應用,那對整個芯片和基礎設施領域的格局確實會帶來較大改變。

就像我剛才說的,DeepSeek已經繞過CUDA去適配很多東西,如果它能繼續保持這個位置,其他芯片廠商可能也會有機會,這對英偉達的生態系統也會構成一定挑戰,溢價肯定會下降。但如果下一個模型,比如Llama 4出來,假如它比DeepSeek好很多,那可能又要重新回到起點。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 都安| 抚宁县| 清镇市| 襄垣县| 福贡县| 桃源县| 饶阳县| 河曲县| 扎囊县| 曲麻莱县| 铜鼓县| 石家庄市| 会理县| 磐安县| 麦盖提县| 华池县| 灌阳县| 寻甸| 额敏县| 淄博市| 宜兴市| 崇礼县| 大英县| 广汉市| 禄丰县| 鄱阳县| 松原市| 皋兰县| 南雄市| 汉阴县| 肥城市| 岐山县| 湛江市| 分宜县| 沭阳县| 白山市| 霍州市| 六盘水市| 广汉市| 邳州市| 治多县|