2025年5月7日,理想汽車舉辦「AI Talk 第二季」并就VLA司機大模型等一系列內容展開。在當下自動駕駛行業普遍陷入“功能瓶頸”與“用戶信任焦慮”之時,VLA不僅是一項技術成果,更是一種戰略宣言。此前,由ChatGPT帶動的大模型浪潮逐漸從語言走向多模態之后,VLA的出現也可以被視為一場在垂直場景中“自我閉環”的工程性嘗試,它不僅標志著理想汽車正式跨入人工智能核心研發陣地,也將自動駕駛從“功能層”推到了“智能協作層”。
自動駕駛,從功能堆疊到智能協作
過去幾年,整個智能駕駛行業在“端到端”和“規則算法”之間來回搖擺。技術社區爭論模型結構,資本市場押注落地節奏,而用戶層面則在體驗不穩定與安全焦慮中漸趨疲勞。
理想VLA的意義在于,它不是對已有路線的加強版,而是結構性的方向重建。VLA全稱為Vision-Language-Action,即視覺-語言-行為三位一體的大模型體系。它具備三種能力融合輸出的能力:看清世界(3D空間建模)、理解語義(語言智能)、做出合理決策(行為生成),最終讓駕駛系統從“被動反應”轉為“主動協同”。這不是更聰明的工具,而是一個有基本判斷力的智能體。換句話說,VLA不僅是“開得更好”,而且是“開得像人”。
技術進化路徑背后,是對工程規律的堅持
VLA不是天降成果,而是理想從規則系統、端到端架構、再到多模態融合長期積累的結果。在理想汽車內部,VLA的研發并不是跨越式推進,而是經過工程邏輯深度打磨的自然演進。
李想在AI Talk中明確表達:“VLA不是突變,而是進化。”這個觀點背后的意思是——理想從一開始就沒有打算跳過模型階段或捷徑式追趕,而是清楚每一步架構演化的技術條件和數據支撐要求。從規則到端到端+VLM,再到VLA,是基于場景、數據體系、工程結構三者耦合之后的結果,而不是某種參數堆疊下的偶然成功。
值得注意的是,VLA并非現有多模態模型的疊加。理想重構了推理鏈路、推理方式和輸出路徑,引入action token機制、diffusion軌跡預測,以及投機推理與強化學習聯合優化,以適配自動駕駛場景中的實時性、穩定性與安全性。這是一套“為車而生”的AI結構,而非從通用AI平臺遷移而來的兼容方案。
理想不談“AI”,只談怎么落地
理想汽車在技術敘事中有意淡化“AI能力”的渲染,轉而強調系統結構、行為一致性與用戶信任。
VLA模型在技術架構上具備高復雜度,但其落地思路相對清晰:VLA將部署在車端運行,并具備獨立空間理解、語言交互與軌跡控制能力。配合理想自研的星環OS及自動駕駛控制系統,理想意圖構建的是一套從AI底座模型、到智能決策鏈路、再到系統調度的閉環生態。這意味著,理想并不把AI視作獨立功能層,而是產品核心結構的一部分。正如理想在AI Talk中強調的,只有當AI跨域了信息工具、輔助工具之后,真正成為生產工具,才是人工智能爆發的時刻,而理想在做的輔助駕駛,正在一步步走向生產工具。
“司機智能體”的戰略含義
自動駕駛行業發展到今天,依然未能擺脫“高上限、低下限”的結構困境。系統在封閉測試場景中表現優異,卻在真實環境中常常暴露“不像人”的不穩定行為——忽視潛規則、不合時宜的變道、對行人意圖判斷失誤等,都是典型問題。
VLA的設計目的之一,是通過“超級對齊”手段,解決行為與人類駕駛邏輯不一致的問題。理想通過引入大量用戶接管數據、駕駛偏好樣本以及城市駕駛中的長尾工況數據,用RLHF方法將系統行為與人類習慣進行結構性對齊,降低用戶的不安全感與陌生感。這種“像人開車”的一致性,是理想賦予VLA最重要的評價標準之一。
VLA的戰略價值,也不僅限于自動駕駛。其技術架構本質上是一種通用型物理世界智能體模型(Physical AI),這讓理想在汽車這一高復雜度、多變量場景中率先跑通“空間-語言-行為”的智能融合邏輯,也為未來AI在機器人、智能家居等場景的延展埋下了路徑。
理想正在在走一條沒有對手走過的路
自動駕駛不是效率問題,而是信任問題。這句話在AI Talk里雖未被明確說出,但貫穿始終。當前的AI行業,概念更新迅速,但多數企業的產品進展依然停留在“集成層”。理想選擇自研全棧大模型、重構車端架構、搭建閉環系統,這種高投入、高工程復雜度的方式在短期看不討好,但卻是真正走向智能化產品形態的必要路徑。
VLA不是終點,也不是一次性技術亮相,而是理想將AI內化為產品骨架之后的第一次結構釋放。它未必是標準答案,但提供了值得行業觀察與深度理解的另一種可能。