文|半導體產業縱橫
近日,臺積電首季來自HPC營收貢獻達41%,首度超越手機,成為最大營收來源。供應鏈也傳出消息,英偉達內部預計,數據中心HPC芯片業績年增長將達到200~250%左右,若進度順利,最快2022年第3季初左右,采用5納米強化版的新產品可望問世。
長久以來,追求更高的算力一直是產業的主要創新方向。此前,國家發改委高技術司相關負責人預計,國內每年的算力需求將保持在20%以上的增長速度。隨著對算力要求越來越高,超級計算中心的誕生正成為承載AI工作量的主流趨勢。
HPC芯片時代即將降臨。
HPC芯片市場需求旺盛
未來,科技發展將會產生極大的算力需求,英特爾預計到2025年將是1000x(千倍級)的提升,而四年內增加1000倍相當于摩爾定律的5次方。從新冠疫情的檢測到氣候變化、金融風險分析和產品開發,世界有很多重大且具有挑戰性的問題需要解決。HPC系統快速準確的數據處理能力,以及人工智能和機器學習算法,通過分析、建模和模擬將海量數據轉化為可操作的見解。
HPC使用戶能夠比標準計算機更快地處理大量數據,從而更快地獲得洞察,并使組織能夠在競爭中保持領先地位。HPC解決方案的運算速度是最快的筆記本速度的一百萬倍。
從Hyperion Research 2021對HPC市場跟蹤報告來看,2020和2021年全球線下服務器市場分別為137和140億美元,預測2022年將達到160億美元;從HPC集群規模細分來看,超算、分支、部門和工作組分別為59億、29億、38億和14億美元。
HPC誕生于內部數據中心,但在2010年下半年,云計算開始改變HPC。該優勢最近作為一種新的HPC部署平臺出現了。隨著高性能解決方案領域的擴展,供應商已經開始提供混合選項。混合的HPC解決方案通常涉及補充現有內部數據中心的云能力。
英特爾曾經錯失了手機移動端SoC,被ARM反超;又在人工智能計算時代被英偉達的GPU反超。但是,英特爾這次推出的GPU目標是能夠在人工智能訓練領域有所成就。基于Xe HPC微架構的數據中心GPU Ponte Vecchio是英特爾迄今最復雜的SoC,包含1000億個晶體管,提供領先的浮點運算和計算密度,以加速AI、HPC和高級分析工作負載。而英特爾推出的Ponte Vecchio是為Aurora超級計算機提供動力的處理器,Aurora超級計算機將會成為美國首批突破exaflop障礙的高性能計算機之一。
雖然,目前的GPU市場是AMD和英偉達的天下,但英特爾在GPU有很多技術積累。另外,未來計算架構的發展趨勢是CPU和GPU融合集成,從而形成互聯、互補、互通的融合模式,以縮小計算和存儲單元的通信成本。作為在CPU領域引領多年的英特爾,在這一趨勢中也有著得天獨厚的優勢。英特爾GPU的愿景也逐漸清晰:在計算多元化、算力需求爆發式增長的大趨勢下,英特爾GPU將成為驅動新興行業發展的算力基石,同時也將成為英特爾自身業務增長的突破點。
英偉達方面,得益于AI和圖形增長,X86 CPU衰落,以及數據中心計算規模增長,全球主要云計算提供商都在使用英偉達產品。TOP10有8臺和TOP500有342臺的超級計算機都是英偉達產品,22年該板塊營收為106.1億美元,5年復合年增長率為66%。
在數據中心市場,英偉達推出了針對大型HPC和云計算的高性能CPU——Grace。此前有媒體報道,英偉達的下一代Ada lovelace架構的RTX 40系列GPU將采用臺積電5nm工藝。
在今年英偉達也再次加碼,收購Bright Computing。而縱觀Bright Computing,為HPC裝置銷售大規模集群管理軟件,其平臺支持x86和基于Arm的芯片以及英偉達的GPU,并且可以靈活地部署在數據中心、跨公共云或網絡邊緣。英偉達也表示此次收購將生產用于管理HPC系統的軟件。
AMD將在今年推進5nm Zen 4架構處理器的研發進度,并且預計在2023年至2024年推出3nm Zen 5架構處理器。對于先進制程,英偉達、AMD率先發起搶單攻勢,爭搶坐上頭把交椅。
HPC分析公司 Hyperion Research的首席執行官 Earl Joseph表示,他預計未來幾年基于 Arm 處理器的 HPC服務器將出現高速增長。
Arm 已經在 HPC行業占據了一席之地。
在日本 RIKEN 實驗室的“Fugaku”超級計算機 以152064個48核排名世界第一的富士通A64FX處理器就是基于Arm架構打造的。
“我們預計五年增長率將超過 31%,而基礎市場的增長率約為 7% 至 8%,”Joseph說。他補充說,這相當于到 2025 年基于 Arm 的系統將占 HPC市場的 10% 左右。
HPC芯片帶動先進封裝
隨著HPC需求的增大,臺積電HPC客戶需求也在增多,HPC在臺積電的營收占比中迅速提升,包括AMD和英偉達在內的供應商在其HPC處理器中采用了臺積電的CoWoS封裝。
實際上,2017年起臺積電也開始將InFO_oS技術應用在HPC的芯片上,并進入量產。臺積電推出的InFO_SoW先進封裝技術,是將HPC芯片在不需要基板及PCB情況下,直接與散熱模組整合在單一封裝中。應用在人工智能推論芯片的InFO_MS技術已經在2019年下半年認證通過,可支持1倍光罩尺寸中介層及整合HBM2存儲器。蘋果的A系列處理器就是InFO_PoP封裝最大客戶。
在對HPC芯片封裝的進程中,臺積電還推出支持超高運算效能HPC芯片的SoW封裝技術。SoW封裝技術的最大特點就是將包括芯片陣列、電源供應、散熱模組等整合,利用高達6層路線重分布(RDL)制程技術,將多顆芯片及電源分配功能連結,再將其直接貼合在散熱模組上,如此就不需采用基板及PCB。
在HPC芯片封裝上,身為國際封測龍頭的日月光也不甘落后。有消息稱,日月光旗下的矽品有能力為HPC解決方案提供利用硅橋的封裝技術,其扇出嵌入式橋(FO-EB)與英特爾和臺積電的硅橋產品相比已經具有競爭力。憑借先進的封裝能力,日月光已切入了美國一流服務器芯片公司的供應鏈。
成為Chiplet的幕后推手
高性能計算應用程序需要功能更強大的處理器,這些處理器可以處理大量工作負載以解決這些復雜問題,但是不會消耗太多能量。這就需要芯片設計同時達到高性能和低功耗,挑戰在于設備及其多核架構如何將高帶寬密度與低延遲和高能效相結合。
非常大的芯片,例如 Cerebras Wafer-Scale Engine,為超大規模生產者提供了一種選擇。但從良率的角度來看,大型、先進節點、單片芯片的生產成本高昂且具有挑戰性。從架構的角度來看,所有超級計算機都是相似的。系統由大量機架組成,每個機架都包含許多計算節點。每個計算節點都有多個 CPU 和 GPU。傳統上,這些芯片中的許多都是大型且復雜的片上系統 (SoC) 設備,其中所有功能都集成在一個單片芯片上。
但實際上,作為一種先進的封裝技術,Chiplet提供了一個潛在的答案,可以在滿足這些對 HPC芯片飛速發展的性能需求。
小芯片是小芯片,當集成到單個封裝中時,會形成更大的多芯片設計。通過將較大的設計劃分為小芯片,設計人員可以獲得產品模塊化和靈活性的好處。即使是在不同工藝節點上開發的單獨芯片,也可以組裝到一個封裝中,以滿足不同的細分市場或需求。與大型單片芯片相比,它們也更容易制造并產生更好的產量。
至于小芯片封裝,有多種選擇來支持更高的晶體管密度,包括多芯片模塊(MCM)、2.5D 和 3D 技術。作為系統級封裝 (SiP) 的最早類型,MCM已經有幾十年的歷史了。MCM 將至少兩個 IC 通過引線鍵合連接在一個單一的封裝中。2.5D設計包括GPU和高帶寬內存(HBM)并排組裝在單個封裝中的中介層上。盡管邏輯沒有堆疊,但在某些2.5D設計中,HBM由3D堆疊內存組成,從而將3D內容帶入2.5D設計。在3D封裝中,異質管芯垂直堆疊并通過硅通孔(TSV)連接,該架構為非常快的內存訪問帶寬鋪平了道路。
HPC設計通常使用各種封裝類型的小芯片。MCM是更小、低功耗設計的理想選擇。2.5D設計適用于人工智能(AI)工作負載,因為與HBM緊密連接的GPU在計算能力和內存容量方面提供了強大的組合。3DIC 具有垂直堆疊的 CPU 和快速的內存訪問,是一般 HPC工作負載的理想選擇。
Hyperion Research 研究高級副總裁 Bob Sorensen 說,“所以從理論上講,小芯片只是單個封裝中多個裸片的最新化身。但是小芯片可以讓 HPC設計人員構建具有最適合 HPC預期工作負載的精確計算、內存和 I/O 功能的處理器。”
邁入百億億次時代
現在,不同國家正在相互競爭,積極部署基于小芯片的百億億次超級計算機,這是一種比當今超級計算機快1000倍的新型系統。中國、歐洲、日本和美國一直在開發Exascale級的超級計算機,每秒執行10億次計算。美國還在開發另外兩臺百億億級超級計算機,包括正在阿貢國家實驗室建造的Aurora。Aurora是圍繞英特爾的服務器處理器和GPU構建的。
對于百億億級超級計算機,Frontier、El Capitan和Aurora系統已經開始采用基于Chiplet的解決方案。
邁入百億億次時代,HPC芯片的戰場再次吹響號角。