3月1日,DeepSeek官方認證賬號在知乎發布了《DeepSeek-V3/R1推理系統概覽》(下稱《概覽》)一文,首次公布模型推理系統的核心優化方案,并披露理論成本利潤率高達545%,刷新了全球AI大模型領域的盈利高點,引發業內震動。
《概覽》顯示,DeepSeek-V3/R1推理系統的優化目標是更大的吞吐、更低的延遲。
為了實現上述兩個目標,DeepSeek使用大規??绻濣c專家并行(EP)。首先EP使得批量尺寸大大增加,從而提高圖形處理器(GPU)矩陣乘法的效率,提高吞吐。其次 EP 使得專家分散在不同的 GPU上,每個GPU只需要計算很少的專家,因此更少的訪存需求,從而降低延遲。
EP同時也增加了系統的復雜性。因此,《概覽》就如何使用EP增大批量尺寸、如何隱藏傳輸的耗時、如何進行負載均衡等進行了講解。
DeepSeek還披露了DeepSeek的理論成本和利潤率等關鍵信息。
文章稱,在北京時間2月27日12:00 至2月28日12:00,DeepSeekV3和R1推理服務占用節點總和,峰值占用為278個節點,平均占用226.75個節點(每個節點為8 個H800 GPU)。假定GPU租賃成本為2美元/小時,總成本約為8.71萬美元/天。
如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入大約56.20萬美元,成本利潤率為545%。

DeepSeek此次披露的數據,不僅驗證了其技術路線的商業可行性,也預示著AI大模型的盈利閉環已從理想照進現實。此前發布的DeepSeek-V3模型訓練成本僅557.6萬美元,是同類產品的1%-5%。
DeepSeek此次在知乎發布《概覽》,引來近600條評論、5000多點贊。有網友稱,今日發布的《概覽》技術文章是“開源周彩蛋”,直接亮出了底牌。有網友稱贊:“太強了,AI算力成為水電的基礎是要足夠便宜,Deepseek邁出了一大步”。
《概覽》發布也標志著全球關注的“DeepSeek開源周”正式收官?!癉eepSeek開源周”自2月24日至2月28日,陸續開源最新技術進展。其中,包括FlashMLA、DeepEP、DeepGEMM和3FS四個開源項目,以及DualPipe、EPLB等代碼庫。