在2024年12月的AI Talk上,理想汽車創(chuàng)始人李想主要討論的理想汽車在人工智能時(shí)代的愿景和長遠(yuǎn)規(guī)劃等。
比如,他說“理想汽車未來要成為一家人工智能企業(yè),要做的不是汽車的智能化,而是人工智能的汽車化”,“理想汽車的愿景是要通過人工智能技術(shù)將物理世界和數(shù)字世界進(jìn)行融合,讓有限的空間實(shí)現(xiàn)無限的延伸,推動(dòng)人工智能普惠到每一個(gè)家庭?!?/p>
他還把理想汽車實(shí)現(xiàn)這一愿景分為三個(gè)階段,理想汽車也根據(jù)三個(gè)階段的演進(jìn)實(shí)行三步走戰(zhàn)略,這被認(rèn)為是理想汽車面向人工智能時(shí)代轉(zhuǎn)型的路線圖。
AI Talk 第二季,李想主要分享了他對人工智能的一些新思考,以及這些思考如何落在理想汽車最新的產(chǎn)品和技術(shù)進(jìn)展中。他還圍繞著“人工智能”這個(gè)話題談到了DeepSeek這家新興公司以及特斯拉、蘋果等科技行業(yè)的龐然大物。
他試圖通過這一次的AI Talk讓外界更加了解理想汽車的內(nèi)核,以及由內(nèi)在的企業(yè)價(jià)值向外延伸的社會責(zé)任。
輔助駕駛的十字路口
在一系列驚人事故之后,相關(guān)部門叫停了車企在輔助駕駛的激進(jìn)宣傳,甚至還有人要求叫停輔助駕駛。
李想把這段時(shí)間稱為“黎明前的黑暗”:“我覺得黎明馬上就要來了。但是會先經(jīng)歷一個(gè)黑暗的過程,之所以有黑暗是因?yàn)橐瓉砝杳鳌N矣X得這是今天這么一個(gè)階段?!?/p>
此前,理想汽車用增程方案解決電池續(xù)航不足、電池原材料成本高昂的問題;隨著純電車型推出的5C技術(shù)也是理想汽車面向純電汽車充電慢、等待時(shí)間長的問題。
業(yè)界早已形成共識,在自動(dòng)駕駛的不同階段,L3為有監(jiān)督智能駕駛,不是L2輔助駕駛的延續(xù),而是L4高度自動(dòng)駕駛的先導(dǎo)程序。
輔助駕駛其實(shí)只實(shí)現(xiàn)了特定功能,而自動(dòng)駕駛則關(guān)乎整體能力。傳統(tǒng)的L2輔助駕駛依賴上一代自動(dòng)駕駛方案,通過預(yù)設(shè)條件來執(zhí)行不同場景下的智駕功能,無法窮盡所有的corner case(極端情況)。
理想汽車的解決方法就是借鑒人類駕駛技能提升的過程,用人工智能的方式實(shí)現(xiàn)汽車駕駛的智能化。
AI工具的三個(gè)層級
李想把人工智能工具分為三個(gè)層級,分別是信息工具、輔助工具和生產(chǎn)工具。當(dāng)前絕大部分人仍將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價(jià)值。成為輔助工具后,AI可以提升效率,比如現(xiàn)在的L2\L2+輔助駕駛,但仍需人類參與。未來,AI發(fā)展為生產(chǎn)工具后,將能獨(dú)立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。
對應(yīng)的,理想汽車的輔助駕駛也將經(jīng)歷三個(gè)階段,第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動(dòng)物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動(dòng)物智能”。
端到端模型在處理復(fù)雜問題時(shí)存在局限,首先它是一個(gè)黑盒子,反應(yīng)到汽車和駕駛員上就是所謂的“端味”,實(shí)際上這意味著端到端模型對復(fù)雜路況的理解比較慢,比如復(fù)雜修路,規(guī)則算法可能會撞上去,而端到端可以處理,但效率還不夠高,可能就導(dǎo)致車輛停下來。另外一個(gè)問題是它無法和人溝通,這也是為什么現(xiàn)在端到端模型仍然需要人類駕駛員完全監(jiān)督。
VLM視覺語言模型是一個(gè)開源模型,在交通領(lǐng)域的能力有限。因此,理想汽車輔助駕駛的第三個(gè)階段是VLA(Vision-Language-Action Model,視覺語言行動(dòng)模型)的應(yīng)用——讓AI真正成為司機(jī),成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,是一個(gè)像人類司機(jī)一樣工作的司機(jī)大模型。
從端到端+VLM到VLA的進(jìn)化
在端到端的基礎(chǔ)上,VLA將開啟“人類智能”的階段,能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時(shí),VLA擁有完整的腦系統(tǒng),具備語言、思維鏈推理能力,既能看,也能理解并真正執(zhí)行行動(dòng),符合人類視覺系統(tǒng)和大腦的運(yùn)作方式。
VLA的訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié),類似于人類學(xué)習(xí)駕駛技能的過程。預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D 視覺數(shù)據(jù)、交通相關(guān)的語言語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端運(yùn)行的端側(cè)模型。
后訓(xùn)練就像人類去駕校學(xué)習(xí)開車的過程。隨著動(dòng)作數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機(jī)大模型。得益于短鏈條的思維鏈推理,以及Diffusion擴(kuò)散模型對于他車軌跡和環(huán)境的預(yù)測,VLA具備實(shí)時(shí)性的特點(diǎn),實(shí)現(xiàn)了在復(fù)雜交通環(huán)境中的博弈能力。
強(qiáng)化訓(xùn)練相當(dāng)于人類在社會中實(shí)際開車練習(xí),目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適,對齊人類價(jià)值觀,最終目標(biāo)是超越人類駕駛水平。強(qiáng)化訓(xùn)練包含兩部分:一是通過RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強(qiáng)化學(xué)習(xí))完成安全對齊,使模型遵守交通規(guī)則,貼合中國用戶的駕駛習(xí)慣;二是將純強(qiáng)化學(xué)習(xí)模型放入世界模型中訓(xùn)練,提升舒適性,避免碰撞事故,遵守交通規(guī)則。經(jīng)過預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后,VLA司機(jī)大模型即可部署至車端運(yùn)行。
VLA司機(jī)大模型以“司機(jī)Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機(jī)Agent溝通,跟人類司機(jī)怎么說,就跟司機(jī)Agent怎么說。簡單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。
2024年底,理想汽車組建了超過100人的超級對齊團(tuán)隊(duì),這個(gè)團(tuán)隊(duì)的主要工作就是為司機(jī)Agent注入職業(yè)素養(yǎng),就像專門的培訓(xùn)員,把一名普通的網(wǎng)約車司機(jī)培養(yǎng)成一名高級且全面的專業(yè)司機(jī)。
另外,為了解決VLA司機(jī)大模型底層的端到端的模型黑盒問題,理想汽車?yán)弥亟ê蜕蓛煞N路徑,打造了真實(shí)、符合物理世界規(guī)律的世界模型,覆蓋所有交通參與者和要素?;谑澜缒P偷姆抡婺芰Γ琕LA可以在世界模型中低成本、準(zhǔn)確地驗(yàn)證現(xiàn)實(shí)問題,提升解決問題的效率,有效應(yīng)對模型黑盒帶來的挑戰(zhàn)。
最終,用戶可以從三個(gè)維度評價(jià)司機(jī)Agent:專業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。這些正是解決了端到端大模型主導(dǎo)的輔助駕駛系統(tǒng)產(chǎn)生的其他問題,在車輛和用戶之間建立起信任。
巨額自研投入+對外合作學(xué)習(xí)
目前,理想汽車超100億的年研發(fā)投入已有接近一半聚焦于人工智能,并建立了四支AI團(tuán)隊(duì),分別在輔助駕駛、理想同學(xué)、智能商業(yè)和智能工業(yè)等領(lǐng)域解決不同的問題。
在VLA上,理想汽車原本的計(jì)劃是今年9月能夠做一個(gè)非常好的語言模型出來,然后再往下訓(xùn)練VLA?!暗钦驹诮裉靵眍A(yù)測,我不認(rèn)為我們做出來的語言模型能力會比DeepSeek更強(qiáng)。而且后者開源非常徹底?!?/p>
理想汽車的CTO謝炎和理想汽車基座模型負(fù)責(zé)人陳偉都堅(jiān)持認(rèn)為,“理想汽車應(yīng)該站在巨人的肩膀上,加速VLA中L(語言)的部分?!边@是李想本人也沒有想到的。
“我們在人工智能戰(zhàn)略小組里不停討論,我和謝炎也通了很多電話,其實(shí)我后來發(fā)現(xiàn)我們都不糾結(jié),因?yàn)椴还苁鞘裁?,我們最終的目標(biāo)都是為用戶推出最佳體驗(yàn)的產(chǎn)品和服務(wù)?!崩钕胝f,因?yàn)镈eepSeek開源,理想汽車的VLA研發(fā)時(shí)間縮短了9個(gè)月,這背后意味著巨大的收益。
也是在DeepSeek開源的影響下,李想和謝炎都認(rèn)為,理想汽車也能對社會做一些貢獻(xiàn),所以他們決定把自研整車操作系統(tǒng)理想星環(huán)OS開源——理想在這套操作系統(tǒng)研發(fā)上花了4年時(shí)間。
5月8日,理想汽車再次用非常蘋果的風(fēng)格發(fā)布了理想L系列智能煥新版,而蘋果也是李想經(jīng)常掛在嘴邊的一家科技公司——它并不是一家被認(rèn)為是引領(lǐng)了人工智能的公司。李想認(rèn)為,面向人工智能時(shí)代,理想汽車更需要向蘋果和特斯拉這樣的公司學(xué)習(xí),包括學(xué)習(xí)他們扎實(shí)打好基本功和管理規(guī)?;哪芰?。
“在人工智能時(shí)代,基本功是不可跳躍的?!崩钕胝f。