文|光錐智能 姚 悅
編輯|王一粟
一進入部署了液冷服務器的數據中心,不僅沒有嘈雜的風扇聲,甚至在不開空調的夏日也完全沒有悶熱感。
在大模型引發“暴力計算”的熱潮下,數據中心的上下游,正在加緊推進液冷“降溫”。
半年來,服務器廠商在液冷產品上紛紛推出新的解決方案。比如,中興通訊的新G5系列服務器,支持不同的冷板式液冷方案,從CPU液冷到內存條散熱+VR液冷;聯想升級海神溫水水冷系統,可實現服務器全水冷無風扇設計;新華三也發布全棧液冷解決方案,包含G6系列服務器、核心路由器、接入交換機;中科曙光子公司曙光數創8月發布了“冷平衡”戰略,是特別針對數據中心算力、成本、能耗三元平衡問題,推出的全棧液冷數據中心技術與全生命周期一站式服務;去年年底華為推出全場景液冷“天成”多樣性算力平臺。今年,華為昇騰再推集成天成液冷的算力集群,可以支持萬卡規模。
“在‘東數西算’‘雙碳’大背景下,不斷提升的功率密度和PUE(能效指標,越接近1越優)設計要求已成為行業面臨的主要問題,液冷技術具有高密低碳等優勢,已經成為應對數據中心散熱壓力和節能挑戰的必由之路。”中興通訊數據中心產品線規劃總工翁建剛表示。
而就在去年,面對液冷,當上游設備廠商活躍時,中游的數據中心還顧慮重重,保持觀望。但現在,像企商在線這樣的中游企業也已經積極規劃液冷設施,足見液冷已經成為行業共識。
企商在線IDC能力中心售前經理徐濤對光錐智能表示,公司已經在接管客戶的一些AI業務,AI服務器的功耗是通用服務器功耗的十倍左右,風冷的局限性日漸明顯,必須嘗試液冷。
服務器廠商的積極布局,很大程度上來源于客戶的需求逐漸明朗。
數據中心占有半壁江山的三大電信運營商在6月親自下場,聯合發布《白皮書》,提出“三年景愿”:即2023年開展液冷技術驗證;2024年開展規模測試,新建數據中心項目10%規模試點應用液冷技術,推進產業生態成熟;2025年及以后開展規模應用,50%以上數據中心項目應用液冷技術。
“現在液冷基本上所有內容已經通過驗證,進入一個規模擴張的階段。”近期,工信部直屬研究機構賽迪顧問的液冷領域分析師袁鈺明確當前液冷所處階段。
其實,液冷并不是新技術,其早已被應用于工業、航空領域。一說,阿波羅登月計劃,就將液冷用于宇航員體溫控制。在數據中心領域,液冷在上世紀60-90年代就嶄露頭角。但后來隨著計算技術迭代功耗下跌,又被“冷落”。
從被“冷落”到“翻紅”,液冷經歷了什么,又將面對什么新挑戰?
“暴力計算”亟需液冷降溫
風冷是過去很長時間內,數據中心的主流溫控方案,以空氣為冷卻媒介。液冷和風冷最大的區別,就是冷卻媒介不同,“液冷”利用礦物油、氟化液等絕緣低沸點的冷卻液作為冷媒,通過熱交換將服務器的熱量排出。完全絕緣、無腐蝕性的冷液,單位體積價格堪比茅臺、五糧液。
液冷之所以被數據中心重新重視,根本原因是,后摩爾定律時代,芯片、服務器的功耗再呈上升趨勢,隨之產生更高的溫度。
“那一次更讓我深刻理解了溫度對于服務器的影響。”有著十余年IDC售前經驗的徐濤回憶從業過程中遇到的設備散熱對服務器運行影響的問題,“客戶規劃的服務器功耗100多瓦,實際裝的300多瓦,而且單機柜實際密度也比規劃高,結果測出服務器溫度到了六七十度,直接導致故障率是原來的10倍。”
圖源曙光數創招股書
針對數據中心高溫問題,頭部設備廠商更加大力推進液冷,目的大多集中在降低PUE,具體則從技術、方案等不同角度著力。
據媒體此前報道,中興通訊建設的全液冷數據中心項目中,液冷散熱的比例已經達到了70%。公司今年1月發布的G5系列服務器新品支持液冷散熱技術,采用冷板式液冷散熱,可實現數據中心PUE降至1.1,冷板&管路高可靠連接,全管路智能監控,漏液秒級告警。
聯想則從液體溫度著眼,首創海神溫水全水冷技術。不同于常見的45-50攝氏度的技術,聯想通過數據分析,認為進水50攝氏度、出水60攝氏度,可以獲得最佳能耗比。海神溫水全水冷技術實現了服務器全水冷無風扇設計,支持多類型GPU,散熱效率達98%,甚至可以支持數據中心PUE降至1.1以下。
后摩爾定律時代,芯片的功率越來越高。尤其是大模型帶來的“暴力計算”,例如,用于訓練ChatGPT的英偉達 A100服務器的最大功耗已達6.5kW。而此前,傳統的服務器功率400W左右已經算很高。
與此同時,AI產業快速發展,致使算力需求飆升。但受制于建設面積等客觀因素,增加單機柜功率密度,成為調和快速的算力需求與有限數據中心承載力的共識方案。
服務器功耗越來越大,溫度越來越高,所占空間越來越小。可以想象一下,一堆愛出汗的人,擠在狹小的屋子。
越來越高的溫度對于服務器來說是非常大的隱患。
“芯片溫度每升高10度,故障率就會翻倍,壽命也會減半。”徐濤說,所以散熱已經是當前智算面臨的最大問題之一。
但是,風冷已經被逼近甚至突破極限。每機柜15-25kW的功率密度是“未使用背板換熱器等其他制冷設備”的風冷解決方案上限,僅勉強扛得住2-4個NVIDIA A100。
華為集群計算業務副總裁王振華表示,當芯片的典型功耗超過300W,每平方厘米的功耗超過90W的時候,風冷難以為繼。而當前業界的主流芯片產品,功耗已經超過這個閾值。
“機柜密度不斷提升,會帶來整個制冷系統的造價成本提升。”曙光數創總裁何繼盛表示,“甚至單機柜的功率密度達到一定程度,繼續增加投資都不能滿足數據中心的散熱需求。”
另一方面,隨著“碳達峰”、“碳中和”等戰略落地,國家到地方對于PUE明確的“紅線”,成為刺激液冷產業加速更為直接的原因。
4月,多部門發文,2023年6月起數據中心PUE不高于1.4,2025年起數據中心不高于1.3,當前行業平均PUE為1.5。更多的地方政策,則對數據中心提出了更加嚴格的要求。
相比之下,液冷的單位體積的比熱容足有風冷的1000倍以上。(比熱容越大的物質,溫度每上升1攝氏度,所吸收的熱量越多);液冷PUE普遍在1.1,甚至不斷逼近1.0。
新華三已經設計了PUE15kW時,冷板式液冷TCO優勢明顯,當單機柜功率>30kW時,浸沒式液冷開始出現優勢。
此外,無論任何一種液冷路線,相較風冷,都已經在節省電和空間上具備成本優勢。
根據開源證券研究所的統計結果,一個數據中心的能耗分布中,散熱系統的占比高達40%。也就是說,數據中心每耗費一度電,只有一半用在了“計算”上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大。
華為昇騰AI計算集群也已經采用液冷散熱。液冷方案本就比傳統風冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準供給方式,相比浸沒式,可以降低日常運維的成本。
“精準供給取決于芯片板卡上都設置傳感器、電控閥門,再加上中央控制,可以實現為不同芯片在不同的負荷下,提供精細化冷量輸送。”北京昇騰人工智能生態創新中心CTO楊光向光錐智能介紹。
華為昇騰門頭溝數據中心,拍攝:光錐智能
阿里云技術專家王鵬曾表示,如果全國的數據中心都采用浸沒液冷技術,預計到2025年,一年可節省上千億度電。
液冷散熱效果強大,數據中心不用采用疏密手段。尤其是對于一二線的數據中心來說,液冷的空間成本更突出。
徐濤透露,他們有數據中心,因為接了一些AI業務,原來規劃246個機柜,但現在GPU服務器增多,為了避免數據中心溫度過高,只能進行疏密,所以一下就砍到了六七十個機柜。但石景山區的數據中心上了液冷設備空間利用率就會大幅提升,同時可以降低數據中心的PUE,降低能耗水平。
“二三線城市的建筑成本為數千元,北京的建筑成本為數萬元,空間成本可以說非常高。”徐濤表示,雖然目前液冷單千瓦成本較風冷高,但考慮到空間利用率以及節省的電費,液冷制冷方案,還是值得投入的。
規模擴張還需跨越“百標大戰”
雖然已經初步跨過降本這道欄,接下來液冷擴張卻還要面臨新的問題——“百標大戰”。
以冷板式液冷為例,主要包括機柜與服務器,交付方式分為兩種,一體化交付與解耦交付。解耦交付是液冷機柜與液冷服務器之間遵循用戶統一制定的接口設計規范,機柜與服務器解耦,可由不同廠商交付;一體化交付是液冷整機柜(包括機柜和服務器)由廠商自定標準進行集成設計開發,整機柜由同一廠商一體化交付。
液冷產業鏈尚不成熟,當前業內尚無服務器統一接口標準,各廠商產品及配件設計標準各異。兩種交付背后充滿了各方博弈。
對于廠商來說,一體化解決方案的成本一定是更低,開發和交付周期大幅縮短。更重要的是,為了形成客戶壁壘,廠商也多選擇以產品一體化的交付模式為主。這導致各廠商的產品之間兼容性差。
不過,數據中心用戶會對一體化交付充滿顧慮。
一方面,用戶會有遷移需求,比如達成新戰略合作,或者原本就是臨時租用機柜,以及后續機柜需要擴容等。如果液冷的設施綁定,遷移成本會增加。另一方面,設備與設施綁定,可能會讓用戶失去議價權。一次性批量采購,設備更新速度快,大概率只能保持固定供應商,如果選擇其他產品,還需要對基礎設施進行改造。
因此,考慮到用戶需求,數據中心不愿意接受一體化方案,就會要求設備廠商解耦。畢竟設備廠商目前還處于充分競爭階段,廠商也就不得不解耦交付。
當前超聚變、華為、浪潮、曙光、新華三等主要液冷服務器廠商皆擁有自己的一體化交付方案與解耦交付方案。
不過,解耦是能解,解耦也可帶來供應商多樣化,有助于控制成本,能夠讓各供應商發揮自身優勢。但是解耦要求甲方協調各個供應商做好對接,過程就會非常耗時耗力。“每一個環節都得多方密切溝通,也得緊盯落實,一旦出現一點差錯,就導致系統性問題。”徐濤說,相對于一體化交付,沒有行業標準,解耦就會變成項目制。
各方拉鋸中,首當其沖的就會是設備廠商。
曙光數創是國內最早布局液冷的企業,液冷基礎設施市占率接近6成。但曙光數創今年年中報顯示,冷板液冷數據中心基礎設施產品,營收收入同比減少42.55%,營收成本同比減少33.63%,毛利率同比減少11.14%。年報中解釋,收入波動的原因是,公司產品是非標準產品,但目前數據中心建設標準各異。繼而,下游會因為種種問題,猶豫嘗試液冷方案,導致液冷推廣遇阻。
曙光數創也呼吁行業統一標準。張鵬表示,首先如果行業標準對于供水的溫度、溫差、壓力等能夠統一,對液冷成本進一步下降是非常有意義的,也是他們在實際落地中遇到的問題。
不過,行業的標準形成并不會一蹴而就。而徐濤認為,各方博弈的滾動過程,行業的發展難免會有波折很有可能“進三步退一步”。當然,這也是新興技術必然經歷的過程。
華為昇騰已經宣布將會發布業界首個萬卡級的集群,也將配套液冷方案,使用天成平臺采用的“液冷+電源+網絡”三條總線的設計思路。
企商在線石景山公共算力中心預計明年8月就交付,雖然還沒有行業標準落實,企商在線則選擇部分高功耗算力采用液冷方式一體化建設,然后直接租算力給客戶。
徐濤表示,后續隨著行業發展一定會有新的方案,考慮到芯片功耗越來越高,風冷能力有限,同時“碳達峰”“碳中和”的要求,液冷作為確定趨勢,當前先做起來比較重要。