文|上海汽車報
車圈的智駕隊伍越來越大。僅看這次廣州車展前后,車圈聲量最大的,幾乎都是智駕和智能。
10月份,宣稱將“扔掉方向盤或踏板”特斯拉Robotaxi初一亮相,就掀起了全球的關注熱潮。11月15日,雷軍在廣州車展上發布小米超級智能駕駛HAD,成為目前最新一家端到端大模型“上車”的車企。截至目前,除了最先應用端到端大模型的特斯拉,中國的理想、蔚來、華為、小鵬、智己、小米等多家車企也已宣布實現端到端“上車”。就連老牌車企也不甘寂寞,廣汽豐田應用Momenta的智駕,甚至喊出了“有路就開廣豐智駕”的口號。
同時伴生的,是在這個全新生態領域中,誕生出來的各種新興投資機會,上汽產業金融投資也開始敏銳布局,身影出現在一家2023年12月新成立的自動駕駛芯片研發商的股東名單中。
風口來了,圍繞端到端和人工智能,總有先行者會先站上去的。
在虛擬世界里“跑”智駕的大模型
以上這段看似實拍的視頻,其實是蔚來對世界模型技術的一次嘗試:整個視頻從第4秒開始,都是由“蔚來世界模型NWM”想象生成的。盡管目前技術尚不成熟,但基于3秒鐘視頻的Prompt(提示)輸入,蔚來世界模型已經可以生成120秒想象的視頻。蔚來于2024年7月27日正式發布這一世界模型,可以全量理解信息、生成新的場景,甚至預測未來可能發生的事件。
端到端,顯然給智駕行業帶來了無窮的想象力。但是,端到端大模型的訓練依賴大量優質數據,而世界模型的應用有望以低成本、高效率的手段,為端到端大模型的訓練提供海量優質數據。
相較于模塊化設計架構,端到端設計架構不再有規劃與控制這些人為設計的模塊,車輛的運行決策全部交給神經網絡大模型處理,因此不再需要工程師寫下海量的代碼。以特斯拉FSD為例,端到端大模型的“上車”,讓智駕系統從V11版本的30萬行代碼精簡到了V12版本的2000行代碼,但智能駕駛的表現卻有了顯著提升,真正實現了“像人類司機一樣”駕駛。
這正是擺脫了代碼規則約束后產生的效果。傳統的模塊化設計就像駕校里的新手司機,只會按部就班執行“教練”(即工程師編寫的代碼)的指令。因此,遇到“教練”教過的場景,智駕系統可以應對。可是,一旦遇到沒有規則指導的Corner Case(邊角案例),車輛就會不知所措,短期內可以通過增加規則來滿足更多的場景需求,但很容易觸達瓶頸和上限。而采用端到端設計架構的智駕系統像是離開駕校,自己上路的新手司機,不再有“教練”發出指令,智駕系統依靠端到端大模型自主判斷并做出決策,逐步成長為“老司機”,讓車輛的智能駕駛獲得更高的上限。
當前,端到端自動駕駛技術的發展遵循漸進的路徑:在感知模塊,多家車企已經通過“BEV(鳥瞰視角)+OCC(占用網絡)+Transformer(一種基于?自注意力機制的神經網絡模型)”的“組合拳”實現了端到端架構;決策模塊也在逐步從依賴手寫規則向基于深度學習的模式轉變。
不過,目前中國企業對于端到端自動駕駛研發的策略存在分歧,“上車”的進度也不一致:華為、小鵬等企業仍然采用感知和規劃控制兩段的“模塊化端到端”,兩個大模型之間依然存在規則連接;理想、蔚來、智己、商湯絕影等企業則采用“一段式端到端”(也被稱為“單一模型端到端”),從原始信號輸入到最終規劃軌跡的輸出直接采用單一深度神經網絡實現。前者設置規則,將大模型黑盒做了灰盒化,模型可解釋性更好;后者數據信息丟失更少,上限更高。
世界模型為自動駕駛 打造云上乾坤
值得注意的是,特斯拉雖然是最早公布采用端到端智駕方案的車企,但并未表明他們采用的是“一段式端到端”還是“模塊化端到端”架構。不過,從馬斯克在社交媒體上的一些表態推測,特斯拉所采用的端到端模型,可能是一種基于生成式人工智能、更高級的端到端大模型。
生成式人工智能模型要解決的核心問題是數據問題。大模型就像一位天賦極高的學生,但需要大量的“學習資料”,也就是數據進行訓練。不過,能夠用于訓練的數據并不多見。馬斯克曾表示,千篇一律的正常行駛數據價值極低,有效性可能不足萬分之一。但是,如果用事故數據訓練端到端模型,能適應的工況也有限。
以ChatGPT、Sora為代表的生成式人工智能大模型為端到端大模型的訓練帶來了啟發。“數據采集車隊跑100萬公里都不一定會遇到‘兩輛卡車相撞,其中一輛側翻’的場景。但是,通過大模型,只需要以相應的文本輸入,一段對應的駕駛場景視頻就能迅速生成。”上汽創投(上汽金控全資子公司)投資經理丁華宇表示,“特斯拉FSD以30秒左右的視頻作為訓練素材,多模態大模型可以迅速生成這種極端工況的行駛數據,幫助訓練模型。”
值得注意的是,這里所用的并不是傳統的生成式模型,而是更貼近當前人工智能領域前沿的“世界模型”(World Models)。二者的區別在于:傳統的生成式模型或許能夠準確預測籃球落地后會彈跳,但模型并不真正理解其中的原因,“彈跳”的結果是基于神經網絡的概率推理給出最有可能符合預期的答案。世界模型則具有基本的物理認知,更善于展現“籃球的真實彈跳”。換言之,世界模型能夠為人工智能提供理解真實的三維物理世界的能力,能夠像人一樣感知真實世界。這與馬斯克所說的“能夠利用精確的物理學知識生成現實世界視頻”不謀而合,也間接解釋了特斯拉在智能駕駛感知中擯棄激光雷達的原因:并非成本高,而是激光雷達的數據與視頻數據維度不同且更復雜,目前難以將激光雷達數據應用到特斯拉的世界模型中。
由此看來,世界模型在端到端大模型訓練中的優勢十分明顯:一是可以低成本生成海量接近真實的、包含Corner Case的多樣化訓練視頻數據;二是模擬物理世界更真實,可以幫助智駕模型在感知端的時空理解能力、環境想象的真實度與豐富度顯著提升;三是具備推理和理解的能力基礎,模型可以自己推理學習因果,不再需要標注,泛化能力大幅度提升。
“世界模型的最終形態可以理解為一個大模型的仿真器。有價值的Corner Case依靠實車采集比較難且成本高昂,依靠目前的仿真技術又不太準,所以依靠世界模型仿真提供訓練素材是一個思路。此外,世界模型還可以用于推理和決策。”丁華宇表示。
投資機會在智駕推理芯片
智能駕駛有數據、算法、算力核心三個要素,上文分別從端到端大模型(即算法)與世界模型(即數據)兩個方面探討了智能駕駛領域的前沿動態。不過,算力也是不容忽視的要素。
“端到端模型更加依賴Scaling Law(尺度定律),即通過增加數據參數量、模型訓練時間生成更大規模、更強性能的模型。以GPT為例,訓練GPT-3大模型(1750億參數)需要1000張A100 GPU一個月的算力,而訓練GPT-4大模型(1.8萬億參數)等效需要25000張A100 GPU 三個月以上的算力。模型高度依賴算力規模提升迭代速率。”丁華宇告訴記者。
換句話說,這是一個“大力出奇跡”的過程,無論是端到端模型還是世界模型,算力與性能直接掛鉤。未來,智駕領域新一輪算力軍備競賽將在車端與云端共同展開,目前中國依然在追趕領先者。
在算力規模方面,特斯拉在自研的超級計算機Dojo量產后,算力規模迅速攀升到全球前五的水平,并有望于今年達到100EFLOPS(1000萬億次浮點運算)的算力規模。目前,中國企業中,即便是算力規模位居前列者,也落后特斯拉1-2個數量級。可作為對比的是,工信部對全國算力的規劃是:到2025年,全國算力規模超過300EFLOPS,屆時特斯拉的算力規模相當于全國算力的1/3。
而在算力芯片方面,中國與美國的整體差距巨大。目前,大模型的云端訓練芯片依然是英偉達一家獨大的局面;但是,在車端的智駕推理芯片方面,國產替代方案正逐步走向成熟,產業鏈上出現了能滿足整車廠智駕方案的車載芯片,也涌現出一批產業投資機會。
10月24日,上汽集團投資的智駕科技企業地平線在香港交易所主板掛牌上市,募資總額達54億港元,成為港股今年以來最大的科技IPO。作為目前國內最大規模量產智能駕駛解決方案的供應商,地平線征程6系列智能計算方案“首發即爆款”,已獲得10家車企及品牌量產合作,將于2025年實現超10款車型量產交付。
“投早、投小、投科技”,除了類似地平線這種在行業內赫赫有名的企業,上汽產業金融投資還在不斷發掘更多有前景、有價值的投資標的,以產業金融投資賦能產業發展、陪伴已投企業成長。
成立于2023年12月的自動駕駛芯片研發商新芯航途是一個典型案例。新芯航途背靠Momenta,并且吸引了大批前OPPO旗下哲庫人才與前華為昇騰SoC團隊,擁有強大的技術實力與未來潛力。隨著汽車智能化、網聯化的加速發展,自動駕駛芯片市場規模將持續擴大,為企業帶來更多機遇。近期,新芯航途完成一輪融資,上汽創投現身股東名單,陪伴企業開啟自研智駕芯片的征程。
借助產業金融投資,上汽集團戰略直投在新賽道上追蹤行業最新動態,積極拓寬版圖、發掘機會,全面布局汽車產業鏈、創新鏈、價值鏈,不斷加強與產業鏈上下游的戰略合作,打造圍繞上汽在新賽道上緊密聯盟的核心生態圈。關注前沿技術,把握“早小”機會,上汽集團戰略直投正致力于加大協同、加深賦能,以CVC產業資本為紐帶,助力上汽與已投企業共同實現雙向賦能和價值共創。