簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

被世人誤解,是特斯拉“端到端”的宿命

掃一掃下載界面新聞APP

被世人誤解,是特斯拉“端到端”的宿命

在端到端這件事情上,特斯拉究竟做了什么?

?文|42號車庫  

進入到 2024 年,「端到端」開始成為自動駕駛領域的一個熱門詞匯。

一個最為直接的原因是:2024 年 1 月下旬,特斯拉面向普通用戶正式推送了 FSD V12 的測試版本。根據這一版本的推送說明,FSD V12 將城市街道駕駛的軟件棧升級為單一的端到端神經網絡,該網絡經過數百萬個視頻片段的訓練,替代了超過 30 萬行 C++ 代碼。

在這個版本發布之后,海外媒體平臺出現了大量關于這個版本的測試視頻,有不少網友對它在城市道路中的駕駛表現表達了贊嘆和震驚,也有人直呼「這就是未來」。

不僅如此,也有不少自動駕駛領域的專業人士對于特斯拉 FSD V12 的表現表示肯定。

當然,特斯拉在端到端領域的一系列動作,也在大洋彼岸的中國引發密切關注;尤其是在智駕領域,無論是產業界,還是輿論場,端到端都在成為一個熱門詞匯,甚至有一些在自動駕駛領域追求搶先落地的車企也已經把端到端列入到宣發口徑中。

需要明確的是,盡管端到端在自動駕駛領域受到追捧,但行業對它的技術開發和商業落地本質上還處于探索階段——基于這一背景,特斯拉作為自動駕駛端到端方面的先行者,更值得成為重點關注的對象。

那么,在端到端這件事情上,特斯拉究竟做了什么?

特斯拉的 ChatGPT 時刻

2023 年 5 月 16 日,在主講了一年一度的特斯拉年度股東大會之后,馬斯克接受了美國知名財經媒體 CNBC 的專訪。

其中,在談到特斯拉 AI 時,馬斯克表示,特斯拉在現實世界 AI 方面擁有巨大的能力,可以說是遙遙領先,「我都說不上誰是第二名」。接著,針對主持人關于 ChatGPT 和生成式 AI 的提問,馬斯克表示:

我認為特斯拉也會迎來一個所謂的「ChatGPT 時刻」,就算不是今年,我認為也不會遲于明年。 這意味著某一天,突然之間,300 萬輛特斯拉汽車可以自己駕駛……然后是 500 萬輛,然后是 1,000 萬輛……

如果我們顛倒彼此的位置,特斯拉來做一個輸出結果不弱于 ChatGPT 的大語言模型,而微軟和 OpenAI 去做自動駕駛,我們把彼此的任務互換。

毫無疑問地,我們會贏。

考慮到馬斯克本人此前對于特斯拉自動駕駛技術能力和落地速度的長期鼓吹和數次跳票,馬斯克在這采訪中對于特斯拉 AI 和自動駕駛的評價,在當時并沒有引起特別大的波瀾。

不過,很少有人注意到,其實,在這次采訪中強調「特斯拉將迎來一個 ChatGPT 時刻」的一周之前,馬斯克已經首次提到了特斯拉在自動駕駛技術上的重大變化,也就是:FSD V12 是一個端到端 AI,它能夠輸入圖像,然后從輸出轉向、加速、剎車燈動作。

用他在三天之后發表的話來說,FSD V12 是一個能夠實現「輸入視頻 + 輸出控制」的完全體 AI(FSD is fully AI from video in to control out)。

那么問題來了,特斯拉究竟是什么時候開始做端到端的?

事實上,根據由 Walter Isaacson 撰寫并且在 2023 年正式出版的《埃隆·馬斯克傳》所披露的消息,特斯拉做端到端自動駕駛的起點時間,可以回溯到 2022 年 12 月——而且很明顯,正是受到了 ChatGPT 的啟發。

具體來說,2022 年 12 月 2 日深夜,馬斯克與特斯拉 Autopilot AI 團隊一位名為 Dhaval Shroff 的工程師進行了交談。

這里需要介紹一下 Dhaval Shroff 的背景。

Dhaval Shroff 是一名來自印度的高材生,他本科畢業于孟買大學,后來到美國留學,在卡內基梅隆大學機器人專業獲得碩士學位,他于 2014 年 6 月進入特斯拉 Autopilot 團隊實習并在 2015 年轉正,隨后一直在 Autopilot 團隊擔任研發和 AI 相關的工作。

2022 年 11 月,馬斯克剛剛收購 Twitter,他需要人手來解決 Twitter 的問題,因此就找到了 Dhaval Shroff 并與之會面。

當時馬斯克的本意,其實是希望說服 Dhaval Shroff 離開特斯拉自動駕駛團隊到推特工作,但是 Dhaval Shroff 希望留在特斯拉,并且向馬斯克介紹了他正在研究的神經網絡路徑規劃項目的細節。

當然,Dhaval Shroff 已經在研究一個自動駕駛前沿項目,該項目的核心是設計一種能夠從人類行為中學習的自動駕駛車輛系統。在這次會面中,Dhaval Shroff 告訴馬斯克的原話是:

它就像 ChatGPT,不過是用在車上的。我們處理了大量有關真人在復雜駕駛環境中如何行動的數據,然后我們訓練計算機的神經網絡來模仿這種行為……我們不再只是根據規則確定車輛的正確行駛路線,而是通過神經網絡來確定車輛的正確行駛路線。

換句話說,這是對人類的模仿。

終于,在這次會面之后,Dhaval Shroff 能夠保住他在特斯拉自動駕駛團隊的工作,因為馬斯克對這個項目產生了極大的興趣——畢竟,在馬斯克看來,特斯拉已經是一家人工智能公司;他本來也已經打算聘請一批人工智能專家與 OpenAI 展開競爭。

由此,Dhaval Shroff 和他的團隊正式得到了馬斯克的支持,并開始在特斯拉自動駕駛的技術框架下進行創新——在 Walter Isaacson 撰寫的《埃隆·馬斯克傳》一書中,Dhaval Shroff 所從事的這個項目被稱之為「neural network planner」。

后來的事實證明,這個項目成為特斯拉全面轉向端到端自動駕駛的關鍵節點。

并非一蹴而就的“端到端”

實際上,在自動駕駛框架下提到端到端這個詞匯,特斯拉并非是第一家。

早在 2016 年 8 月,致力于在進軍自動駕駛領域的英偉達,就發表了一篇名為《End to End Learning for Self-Driving Cars》的學術論文,其中提到一種面向自動駕駛的深度學習算法,該算法使用卷積神經網絡(CNN)將汽車前攝像頭拍攝的圖片,對應到無人駕駛車的行駛方向上。

其實,從論文本身的介紹來看,這個算法能夠完成的任務很有限,比如說它只能學習控制方向盤,但是不考慮路徑和速度——但是從思維方式來說,它確實與當時需要分感知、檢測、決策、控制等分模塊進行的無人駕駛技術框架不同,而是采用了模塊的一體化方案。

簡單來說,輸入圖像,輸出動作,確實是與「端到端」方案的理念完全一致。

不過,英偉達只是在技術研究層面提出了「端到端」,而從自動駕駛伴隨汽車行業大規模量產落地的角度來看,端到端方案在很長一段時間里并不具備落地的可行性——即使是在自動駕駛量產落地方面最為激進的特斯拉,也并不例外。

那么,特斯拉是如何一步步走向「端到端」的?

一位從事自動駕駛算法研究的行業專家告訴我們,盡管「端到端」這個概念看起來比較新穎且「高大上」,但是從行業落地的角度來看,特斯拉做端到端,并非是把以往的 FSD 算法成果完全抹去從頭再來、從零開始,而是很有可能是基于以往的算法成果進行了算法框架的結構性調整。

也就是說,特斯拉做端到端,并非是一蹴而就的。

比如說,早在 2021 年 8 月的特斯拉 AI Day 上,時任特斯拉 AI 負責人 Andrej Karpathy 正式對外介紹了基于 BEV + Transformer 的感知算法架構——在這種情況下,特斯拉的感知算法模塊已經是完全基于神經網絡的 2.0 版本。

同時,根據這次 AI Day 活動展示的信息,特斯拉在 2021 年,就已經對它的規劃和控制(Planning & Control)模塊進行了面向軟件 2.0 的優化,也就是說,特斯拉當時已經嘗試在規劃部分加入神經網絡的元素(但并非全部)。

而到了 2022 年 10 月的特斯拉 AI Day 上,特斯拉 AI 算法架構的感知模塊和規劃控制模塊都得到了更新,但它們之間依舊是相對獨立的模塊。具體來看:

在感知模塊,新任的特斯拉 AI 負責人 Ashok Elluswamy 介紹了特斯拉自動駕駛算法框架中的占用網絡(Occupancy Network),配合 NERF 算法,它可以在 BEV+Transformer 感知框架的基礎上實現通用能力更強的 3D 空間感知。

而在規劃控制模塊,特斯拉則基于占用網絡的優勢,對于以往的算法進行了又一次重寫。其中一部分用到了神經網絡,也用到了生成式 AI 技術(來生成行車軌跡預測),但總體來說,在這個模塊中依舊包括了大量的人工規則代碼——在整體上,它更像是一個采用軟件 2.0 代碼來解決部分問題的軟件 1.0 軟件棧。

這時候,盡管特斯拉的感知模塊和規劃控制模塊依舊是相對獨立的,但它們之間的關聯實際上已經是更加緊密了。

可見,特斯拉在構建 Autopilot 軟件算法框架的前后過程中,盡管感知、規劃、控制等模塊是相對獨立的,但是它們之間也一直存在著聯動關系,并且規劃控制模塊也會隨著感知模塊的進化升級而進行升級,甚至重寫——到 2022 年 12 月之前,感知模塊已經完成了面向神經網絡的軟件 2.0 進化,而規劃、控制模塊則由于其極端復雜性依舊需要大量的基于規則的、由人工編寫的 C++ 代碼。

基于這一背景,Dhaval Shroff 所提到的神經網絡路徑規劃項目,可以說是特斯拉自動駕駛走向「端到端」的關鍵一步。

需要說明的是,到目前為止,關于特斯拉如何實現將感知、規劃、決策、控制等自動駕駛算法模塊融合一個大的神經網絡架構中,從而實現「端到端」,特斯拉還沒有公開說明,甚至在外界時也絕口不談——不過,即使「端到端」能夠實現整個 FSD 算法框架面向軟件 2.0 的轉化,但它并不會 100% 摒棄人類的算法規則。

當然,外界也有質疑的聲音認為,「端到端」可能只是馬斯克的一個營銷詞匯。

數據:特斯拉的獨特優勢

對于馬斯克來說,選擇支持 Dhaval Shroff 的神經網絡路徑規劃項目,并非是毫無風險、輕輕松松的——實際上,對算法進行面向神經網絡的又一次創新,往往意味著特斯拉要花費相應的時間、數據和算力資源來進行試錯。

甚至在特斯拉的內部團隊中,也有人并不相信這個神經網絡路徑規劃項目取得成功。

好在,僅用了半年左右的時間,Dhaval Shroff 就取得了突破,并且向馬斯克證明:這是一個正確的方向。

其中的一個助力因素是特斯拉的巨大數據優勢。

實際上,基于特斯拉自動駕駛團隊以往在數據處理方面的豐富經驗,從 2022 年底到 2023 年初的數個月時間里,Dhaval Shroff 的神經網絡路徑規劃項目對來自特斯拉客戶車輛的 1,000 萬個視頻片段進行了分析。

根據 Dhaval Shroff 的說法,他們選擇投入到數據訓練中的視頻,是經過精心選擇的。

其主要標準是,在視頻片段中,人類司機能夠很好地處理各種場景——只有這樣的視頻數據,特斯拉才會納入到訓練中進行學習。同時,在訓練過程中,也需要對視頻內容的多樣性提出要求,以便讓神經網絡能夠針對各種各樣的人類司機駕駛場景進行學習。

為此,特斯拉還在紐約州 Buffalo 市招募了大量的人類標注員,他們能夠對視頻頻段進行評估并給出分數——根據馬斯克的要求,這些人類標注員要找到「Uber 五星司機會采取的做法」,然后相對應的視頻被用來進行數據訓練。

根據 Dhaval Shroff 曾經向馬斯克展示的一個基于神經網絡路徑規劃的一個案例:在一條到處都是垃圾桶、交通錐桶和雜物散落的演示道路上,在神經網絡路徑規劃的引導下,車輛能夠繞過障礙物,越過車道線,甚至在必要時打破規則。

這個案例,已經讓馬斯克感到興奮。

2023 年 4 月,在特斯拉自動駕駛研發團隊所在的 Palo Alto 市,馬斯克第一次體驗到了基于全新神經網絡路徑規劃技術的特斯拉自動駕駛軟件版本,與他一起參加體驗的,包括特斯拉 AI 負責人 Ashok Elluswamy 和 Dhaval Shroff 等團隊成員。

在這次測試中,團隊成員們向馬斯克解釋了 FSD 是如何用特斯拉用戶的車載攝像頭收集的數百萬個視頻片段進行訓練的,他們同時告訴馬斯克,這樣做出來的軟件堆棧,甚至比人類編程規定好數千條規則的傳統軟件堆棧要簡單得多。

用 Dhaval Shroff 的原話來說,「它的運行速度快了 10 倍,可以直接刪掉 30 萬行代碼」。后來,這句話也成為馬斯克宣傳特斯拉自動駕駛端到端方案時的常用話術。

在這次試駕體驗中,針對試駕車的其中一次操作,馬斯克覺得它比自己做得都要好;為此,他感到非常高興,甚至當場吹起了口哨。就這樣,在這次試駕之后,馬斯克宣布,他已經徹底相信這個項目的重要性,并且認為應該調集大量資源來推進這個項目。

需要明確的是,到這個階段,特斯拉的自動駕駛團隊已經發現一個明確的事實:那就是神經網絡至少需要經過 100 萬個視頻片段的訓練才能夠達到良好的工作狀態,如果訓練量能夠達到 150 萬個視頻片段,那么它就會變得相當理想。

好在,考慮到特斯拉車輛在全球范圍內的巨大保有量(高達數百萬臺車),實際上,它每天都能夠收集龐大的視頻數據來進行訓練。

正如 Ashok Elluswamy 所言,特斯拉在數據方面有著得天獨厚的重大優勢。

當然,除了數據之外,特斯拉在算力方面也有著重大優勢,畢竟,特斯拉不僅僅購買了大量的英偉達 GPU 用于數據中心的建設,同時也在持續推進自研的 Dojo 超級計算機項目。

而配合特斯拉在車端部署的 FSD Chip 芯片,特斯拉也構建了從云端到車端的軟硬件一體化技術框架——這也是特斯拉在整個自動行業里做「端到端」難以匹敵的優勢之所在。

從端到端,到大模型思維

從目前的情況來看,特斯拉在端到端領域的探索,已經取得不少突破。

實際上,在 2023 年 8 月,馬斯克就已經在社交平臺上進行了一場關于特斯拉端到端自動駕駛測試版( FSD V12 Beta)的直播。從直播中的內容來看,馬斯克信心滿滿,而這輛車在自動駕駛過程中也僅僅出現了一次與紅綠燈相關的失誤,但效果已經被整個行業所矚目。

數個月后,隨著特斯拉對端到端自動駕駛系統的進一步訓練,FSD V12 也取得進一步突破,并且在 2023 年 12 月逐漸開始擴大內測范圍到特斯拉內部員工。到了 2024 年 1 月,FSD V12 又分別在 1 月推送給媒體人——最終在 2 月份,特斯拉把 FSD V12 推送給一定范圍內的普通用戶。

從目前的反饋來看,在城市場景中,相對于依舊在規劃控制方面依賴于人工代碼的 FSD V11,基于神經網絡的 FSD V12 更加受到認可。

其中一個案例是,3 月 6 日,深度學習專家 James Douma 在體驗 FSD V12 后評價稱,與 V11 相比,V12 的人工干預將減少 100 倍以上,這并不是增量式的升級,而是一個飛躍,它強大得令人印象深刻。

他還表示,通過端到端路徑規劃和控制有效實現的一系列行為表明,僅靠更多更好的數據和訓練,特斯拉團隊就能夠實現「優于人類」(better than human)的目標——對于這一評價,馬斯克回應稱:這是非常準確的評估。

當然,從目前的情況來看,特斯拉在 AI 領域的探索,已經明顯跨越了「端到端」的范疇本身。

實際上,早在去年的計算機領域的國際頂級會議 CVPR 上,特斯拉 AI 負責人 Ashok Elluswamy 就進行過一場名為「Foundation Models for Autonomy」的主題演講。其中明確提到,特斯拉正在構建一些基礎模型,而占用網絡(Occuancy Network)就是已經融合其中、但并非以實體存在的重要一個。

更重要的是,Ashok Elluswamy 強調,一個真正的基礎大模型(Foundation Model)并不是諸多小任務的機械式疊加,而是能夠產生溢出效應。

他表示,特斯拉正在試圖構建一個更加通用的世界模型(General World Model),它能夠預測未來,能夠幫助神經網絡自主學習,能夠像一個神經網絡模擬器發揮作用,甚至能夠以 AI 的方式生成 3D 空間(并且根據人類的左右轉彎等指令,在八個攝像頭視角里同時進行一致性非常強的 3D 變換)。

正是基于這一前提,馬斯克才會在 2024 年 2 月 Sora 橫空出世時反復強調,特斯拉已經構建出了更加符合物理世界規律的生成式 AI。

而在這場演講的結尾,Ashok Elluswamy 強調,特斯拉之所以能夠構建上述基礎大模型,一方面是它擁有極端龐大的數據體量,另一方面是它已經擁有非常強大的算力基礎。盡管他在此處的目的是招募更多的人才加入特斯拉,但是從基礎原理上來說,海量數據和龐大算力確實構成了特斯拉構建基于真實世界的大模型的重要支柱。

他還明確表示,特斯拉 FSD 不僅僅是為了汽車機器人(Car Robot)而構建,也是為了人形機器人(Humanoid Robot)而構建。

同樣是在這次 CVPR 會議上,特斯拉 AI 團隊的另外一個成員 Phil Duan 也在演講中表示,特斯拉正在構建的是一個高度多樣化、高質量的數據集,并通過它來訓練一個基礎大模型(Foundation Model)。而在特斯拉看來,這將會是它通過構建大模型來賦能自動駕駛和具身智能(Embodied AI)的未來路徑。

非常有意思的是,根據馬斯克在去年下半年發布的視頻,特斯拉 Optimus 人形機器人已經用上了與其自動駕駛系統相同的端到端神經網絡,并且體現出了非常明顯的能力進化。

如今來看,以端到端為起點,特斯拉對于 AI 的探索已經進入到另一個階段,那就是通過單一基礎視頻網絡(a single foundation video network)來直接駕駛汽車——從技術范式上來說,通過端到端的算法變革,特斯拉已經整體上轉向類似于 OpenAI 旗下 GPT 這樣的大模型思維。

寫在最后

縱觀十年來的發展歷程,我們會發現,自動駕駛技術發展的底層驅動力,往往是 AI 技術本身的變化。

比如說,由 2012 年的 AlexNet 出發,深度卷積神經網絡(CNN)在此后數年時間里成為自動駕駛在感知領域常用的算法;到了 2020 年,在 Transformer 已經賦能于自然語言處理領域數年之后,為了解決 3D 空間感知的效率和功率問題,Transformer 又被引入到特斯拉自動駕駛的感知算法架構中。

而到了 2022 年底和 2023 年初,伴隨著 ChatGPT 的橫空出世,特斯拉又在大模型思維的啟發下轉向自動駕駛端到端,并由此進入到通過訓練單一的基礎大模型來構建更加通用的下一代自主系統(Autonomy)的發展路徑中。

然而,無論是如今的各類大模型,還是特斯拉的端到端,其底層算法架構中的關鍵組成部分依舊是誕生于 2017 年的 Transformer 算法,且短期內它很難被替代。

回過頭來看,很難否認的是,特斯拉在這條路徑上也是明顯受到了 OpenAI 和 ChatGPT 的影響,而這背后其實也是在自身業務層面的對于 Scaling Law 的遵循——從這個角度來看,在特斯拉和馬斯克的帶動之后,AI 發展對于自動駕駛發展產生直接影響的速度,變得越來越快。同時,自動駕駛與 AI 的關系也愈加緊密。

甚至有一種觀點認為,當 AI 發展到通用人工智能的時候,完全無人的自動駕駛也將能夠實現。

有意思的是,很少有人注意到,早在 2020 年 6 月,OpenAI 創始成員、當時擔任特斯拉 AI 負責人的 Andrej Karpathy 就已經在 Twitter 上發表了自己對 GPT 和自動駕駛發展的暢想,他的原話是:

Autopilot 的終極形態,應該是將車輛管理局手冊(DMV Handbook)的內容輸入到一個「大型多模態的 GTP-10」中,然后喂給它過去 10 秒的傳感器數據,使它跟著走。

從當時的情況來看,Andrej Karpathy 就已經密切關注著 Transformer 和 GPT,并且將其與特斯拉 Autopilot 相關聯——然而,站在當下的視角來回顧,如今我們在自動駕駛領域看到的一切和即將發生的一切,實際上在那個時候就已經被預見到,并提前埋下了伏筆。

本文為轉載內容,授權事宜請聯系原著作權人。

特斯拉

7.9k
  • 特斯拉首輛全自動駕駛汽車將交付,其Robotaxi暫定本月開啟載客
  • 馬斯克:首輛從工廠直接自動駕駛至客戶家的特斯拉汽車將于6月28日實現

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

被世人誤解,是特斯拉“端到端”的宿命

在端到端這件事情上,特斯拉究竟做了什么?

?文|42號車庫  

進入到 2024 年,「端到端」開始成為自動駕駛領域的一個熱門詞匯。

一個最為直接的原因是:2024 年 1 月下旬,特斯拉面向普通用戶正式推送了 FSD V12 的測試版本。根據這一版本的推送說明,FSD V12 將城市街道駕駛的軟件棧升級為單一的端到端神經網絡,該網絡經過數百萬個視頻片段的訓練,替代了超過 30 萬行 C++ 代碼。

在這個版本發布之后,海外媒體平臺出現了大量關于這個版本的測試視頻,有不少網友對它在城市道路中的駕駛表現表達了贊嘆和震驚,也有人直呼「這就是未來」。

不僅如此,也有不少自動駕駛領域的專業人士對于特斯拉 FSD V12 的表現表示肯定。

當然,特斯拉在端到端領域的一系列動作,也在大洋彼岸的中國引發密切關注;尤其是在智駕領域,無論是產業界,還是輿論場,端到端都在成為一個熱門詞匯,甚至有一些在自動駕駛領域追求搶先落地的車企也已經把端到端列入到宣發口徑中。

需要明確的是,盡管端到端在自動駕駛領域受到追捧,但行業對它的技術開發和商業落地本質上還處于探索階段——基于這一背景,特斯拉作為自動駕駛端到端方面的先行者,更值得成為重點關注的對象。

那么,在端到端這件事情上,特斯拉究竟做了什么?

特斯拉的 ChatGPT 時刻

2023 年 5 月 16 日,在主講了一年一度的特斯拉年度股東大會之后,馬斯克接受了美國知名財經媒體 CNBC 的專訪。

其中,在談到特斯拉 AI 時,馬斯克表示,特斯拉在現實世界 AI 方面擁有巨大的能力,可以說是遙遙領先,「我都說不上誰是第二名」。接著,針對主持人關于 ChatGPT 和生成式 AI 的提問,馬斯克表示:

我認為特斯拉也會迎來一個所謂的「ChatGPT 時刻」,就算不是今年,我認為也不會遲于明年。 這意味著某一天,突然之間,300 萬輛特斯拉汽車可以自己駕駛……然后是 500 萬輛,然后是 1,000 萬輛……

如果我們顛倒彼此的位置,特斯拉來做一個輸出結果不弱于 ChatGPT 的大語言模型,而微軟和 OpenAI 去做自動駕駛,我們把彼此的任務互換。

毫無疑問地,我們會贏。

考慮到馬斯克本人此前對于特斯拉自動駕駛技術能力和落地速度的長期鼓吹和數次跳票,馬斯克在這采訪中對于特斯拉 AI 和自動駕駛的評價,在當時并沒有引起特別大的波瀾。

不過,很少有人注意到,其實,在這次采訪中強調「特斯拉將迎來一個 ChatGPT 時刻」的一周之前,馬斯克已經首次提到了特斯拉在自動駕駛技術上的重大變化,也就是:FSD V12 是一個端到端 AI,它能夠輸入圖像,然后從輸出轉向、加速、剎車燈動作。

用他在三天之后發表的話來說,FSD V12 是一個能夠實現「輸入視頻 + 輸出控制」的完全體 AI(FSD is fully AI from video in to control out)。

那么問題來了,特斯拉究竟是什么時候開始做端到端的?

事實上,根據由 Walter Isaacson 撰寫并且在 2023 年正式出版的《埃隆·馬斯克傳》所披露的消息,特斯拉做端到端自動駕駛的起點時間,可以回溯到 2022 年 12 月——而且很明顯,正是受到了 ChatGPT 的啟發。

具體來說,2022 年 12 月 2 日深夜,馬斯克與特斯拉 Autopilot AI 團隊一位名為 Dhaval Shroff 的工程師進行了交談。

這里需要介紹一下 Dhaval Shroff 的背景。

Dhaval Shroff 是一名來自印度的高材生,他本科畢業于孟買大學,后來到美國留學,在卡內基梅隆大學機器人專業獲得碩士學位,他于 2014 年 6 月進入特斯拉 Autopilot 團隊實習并在 2015 年轉正,隨后一直在 Autopilot 團隊擔任研發和 AI 相關的工作。

2022 年 11 月,馬斯克剛剛收購 Twitter,他需要人手來解決 Twitter 的問題,因此就找到了 Dhaval Shroff 并與之會面。

當時馬斯克的本意,其實是希望說服 Dhaval Shroff 離開特斯拉自動駕駛團隊到推特工作,但是 Dhaval Shroff 希望留在特斯拉,并且向馬斯克介紹了他正在研究的神經網絡路徑規劃項目的細節。

當然,Dhaval Shroff 已經在研究一個自動駕駛前沿項目,該項目的核心是設計一種能夠從人類行為中學習的自動駕駛車輛系統。在這次會面中,Dhaval Shroff 告訴馬斯克的原話是:

它就像 ChatGPT,不過是用在車上的。我們處理了大量有關真人在復雜駕駛環境中如何行動的數據,然后我們訓練計算機的神經網絡來模仿這種行為……我們不再只是根據規則確定車輛的正確行駛路線,而是通過神經網絡來確定車輛的正確行駛路線。

換句話說,這是對人類的模仿。

終于,在這次會面之后,Dhaval Shroff 能夠保住他在特斯拉自動駕駛團隊的工作,因為馬斯克對這個項目產生了極大的興趣——畢竟,在馬斯克看來,特斯拉已經是一家人工智能公司;他本來也已經打算聘請一批人工智能專家與 OpenAI 展開競爭。

由此,Dhaval Shroff 和他的團隊正式得到了馬斯克的支持,并開始在特斯拉自動駕駛的技術框架下進行創新——在 Walter Isaacson 撰寫的《埃隆·馬斯克傳》一書中,Dhaval Shroff 所從事的這個項目被稱之為「neural network planner」。

后來的事實證明,這個項目成為特斯拉全面轉向端到端自動駕駛的關鍵節點。

并非一蹴而就的“端到端”

實際上,在自動駕駛框架下提到端到端這個詞匯,特斯拉并非是第一家。

早在 2016 年 8 月,致力于在進軍自動駕駛領域的英偉達,就發表了一篇名為《End to End Learning for Self-Driving Cars》的學術論文,其中提到一種面向自動駕駛的深度學習算法,該算法使用卷積神經網絡(CNN)將汽車前攝像頭拍攝的圖片,對應到無人駕駛車的行駛方向上。

其實,從論文本身的介紹來看,這個算法能夠完成的任務很有限,比如說它只能學習控制方向盤,但是不考慮路徑和速度——但是從思維方式來說,它確實與當時需要分感知、檢測、決策、控制等分模塊進行的無人駕駛技術框架不同,而是采用了模塊的一體化方案。

簡單來說,輸入圖像,輸出動作,確實是與「端到端」方案的理念完全一致。

不過,英偉達只是在技術研究層面提出了「端到端」,而從自動駕駛伴隨汽車行業大規模量產落地的角度來看,端到端方案在很長一段時間里并不具備落地的可行性——即使是在自動駕駛量產落地方面最為激進的特斯拉,也并不例外。

那么,特斯拉是如何一步步走向「端到端」的?

一位從事自動駕駛算法研究的行業專家告訴我們,盡管「端到端」這個概念看起來比較新穎且「高大上」,但是從行業落地的角度來看,特斯拉做端到端,并非是把以往的 FSD 算法成果完全抹去從頭再來、從零開始,而是很有可能是基于以往的算法成果進行了算法框架的結構性調整。

也就是說,特斯拉做端到端,并非是一蹴而就的。

比如說,早在 2021 年 8 月的特斯拉 AI Day 上,時任特斯拉 AI 負責人 Andrej Karpathy 正式對外介紹了基于 BEV + Transformer 的感知算法架構——在這種情況下,特斯拉的感知算法模塊已經是完全基于神經網絡的 2.0 版本。

同時,根據這次 AI Day 活動展示的信息,特斯拉在 2021 年,就已經對它的規劃和控制(Planning & Control)模塊進行了面向軟件 2.0 的優化,也就是說,特斯拉當時已經嘗試在規劃部分加入神經網絡的元素(但并非全部)。

而到了 2022 年 10 月的特斯拉 AI Day 上,特斯拉 AI 算法架構的感知模塊和規劃控制模塊都得到了更新,但它們之間依舊是相對獨立的模塊。具體來看:

在感知模塊,新任的特斯拉 AI 負責人 Ashok Elluswamy 介紹了特斯拉自動駕駛算法框架中的占用網絡(Occupancy Network),配合 NERF 算法,它可以在 BEV+Transformer 感知框架的基礎上實現通用能力更強的 3D 空間感知。

而在規劃控制模塊,特斯拉則基于占用網絡的優勢,對于以往的算法進行了又一次重寫。其中一部分用到了神經網絡,也用到了生成式 AI 技術(來生成行車軌跡預測),但總體來說,在這個模塊中依舊包括了大量的人工規則代碼——在整體上,它更像是一個采用軟件 2.0 代碼來解決部分問題的軟件 1.0 軟件棧。

這時候,盡管特斯拉的感知模塊和規劃控制模塊依舊是相對獨立的,但它們之間的關聯實際上已經是更加緊密了。

可見,特斯拉在構建 Autopilot 軟件算法框架的前后過程中,盡管感知、規劃、控制等模塊是相對獨立的,但是它們之間也一直存在著聯動關系,并且規劃控制模塊也會隨著感知模塊的進化升級而進行升級,甚至重寫——到 2022 年 12 月之前,感知模塊已經完成了面向神經網絡的軟件 2.0 進化,而規劃、控制模塊則由于其極端復雜性依舊需要大量的基于規則的、由人工編寫的 C++ 代碼。

基于這一背景,Dhaval Shroff 所提到的神經網絡路徑規劃項目,可以說是特斯拉自動駕駛走向「端到端」的關鍵一步。

需要說明的是,到目前為止,關于特斯拉如何實現將感知、規劃、決策、控制等自動駕駛算法模塊融合一個大的神經網絡架構中,從而實現「端到端」,特斯拉還沒有公開說明,甚至在外界時也絕口不談——不過,即使「端到端」能夠實現整個 FSD 算法框架面向軟件 2.0 的轉化,但它并不會 100% 摒棄人類的算法規則。

當然,外界也有質疑的聲音認為,「端到端」可能只是馬斯克的一個營銷詞匯。

數據:特斯拉的獨特優勢

對于馬斯克來說,選擇支持 Dhaval Shroff 的神經網絡路徑規劃項目,并非是毫無風險、輕輕松松的——實際上,對算法進行面向神經網絡的又一次創新,往往意味著特斯拉要花費相應的時間、數據和算力資源來進行試錯。

甚至在特斯拉的內部團隊中,也有人并不相信這個神經網絡路徑規劃項目取得成功。

好在,僅用了半年左右的時間,Dhaval Shroff 就取得了突破,并且向馬斯克證明:這是一個正確的方向。

其中的一個助力因素是特斯拉的巨大數據優勢。

實際上,基于特斯拉自動駕駛團隊以往在數據處理方面的豐富經驗,從 2022 年底到 2023 年初的數個月時間里,Dhaval Shroff 的神經網絡路徑規劃項目對來自特斯拉客戶車輛的 1,000 萬個視頻片段進行了分析。

根據 Dhaval Shroff 的說法,他們選擇投入到數據訓練中的視頻,是經過精心選擇的。

其主要標準是,在視頻片段中,人類司機能夠很好地處理各種場景——只有這樣的視頻數據,特斯拉才會納入到訓練中進行學習。同時,在訓練過程中,也需要對視頻內容的多樣性提出要求,以便讓神經網絡能夠針對各種各樣的人類司機駕駛場景進行學習。

為此,特斯拉還在紐約州 Buffalo 市招募了大量的人類標注員,他們能夠對視頻頻段進行評估并給出分數——根據馬斯克的要求,這些人類標注員要找到「Uber 五星司機會采取的做法」,然后相對應的視頻被用來進行數據訓練。

根據 Dhaval Shroff 曾經向馬斯克展示的一個基于神經網絡路徑規劃的一個案例:在一條到處都是垃圾桶、交通錐桶和雜物散落的演示道路上,在神經網絡路徑規劃的引導下,車輛能夠繞過障礙物,越過車道線,甚至在必要時打破規則。

這個案例,已經讓馬斯克感到興奮。

2023 年 4 月,在特斯拉自動駕駛研發團隊所在的 Palo Alto 市,馬斯克第一次體驗到了基于全新神經網絡路徑規劃技術的特斯拉自動駕駛軟件版本,與他一起參加體驗的,包括特斯拉 AI 負責人 Ashok Elluswamy 和 Dhaval Shroff 等團隊成員。

在這次測試中,團隊成員們向馬斯克解釋了 FSD 是如何用特斯拉用戶的車載攝像頭收集的數百萬個視頻片段進行訓練的,他們同時告訴馬斯克,這樣做出來的軟件堆棧,甚至比人類編程規定好數千條規則的傳統軟件堆棧要簡單得多。

用 Dhaval Shroff 的原話來說,「它的運行速度快了 10 倍,可以直接刪掉 30 萬行代碼」。后來,這句話也成為馬斯克宣傳特斯拉自動駕駛端到端方案時的常用話術。

在這次試駕體驗中,針對試駕車的其中一次操作,馬斯克覺得它比自己做得都要好;為此,他感到非常高興,甚至當場吹起了口哨。就這樣,在這次試駕之后,馬斯克宣布,他已經徹底相信這個項目的重要性,并且認為應該調集大量資源來推進這個項目。

需要明確的是,到這個階段,特斯拉的自動駕駛團隊已經發現一個明確的事實:那就是神經網絡至少需要經過 100 萬個視頻片段的訓練才能夠達到良好的工作狀態,如果訓練量能夠達到 150 萬個視頻片段,那么它就會變得相當理想。

好在,考慮到特斯拉車輛在全球范圍內的巨大保有量(高達數百萬臺車),實際上,它每天都能夠收集龐大的視頻數據來進行訓練。

正如 Ashok Elluswamy 所言,特斯拉在數據方面有著得天獨厚的重大優勢。

當然,除了數據之外,特斯拉在算力方面也有著重大優勢,畢竟,特斯拉不僅僅購買了大量的英偉達 GPU 用于數據中心的建設,同時也在持續推進自研的 Dojo 超級計算機項目。

而配合特斯拉在車端部署的 FSD Chip 芯片,特斯拉也構建了從云端到車端的軟硬件一體化技術框架——這也是特斯拉在整個自動行業里做「端到端」難以匹敵的優勢之所在。

從端到端,到大模型思維

從目前的情況來看,特斯拉在端到端領域的探索,已經取得不少突破。

實際上,在 2023 年 8 月,馬斯克就已經在社交平臺上進行了一場關于特斯拉端到端自動駕駛測試版( FSD V12 Beta)的直播。從直播中的內容來看,馬斯克信心滿滿,而這輛車在自動駕駛過程中也僅僅出現了一次與紅綠燈相關的失誤,但效果已經被整個行業所矚目。

數個月后,隨著特斯拉對端到端自動駕駛系統的進一步訓練,FSD V12 也取得進一步突破,并且在 2023 年 12 月逐漸開始擴大內測范圍到特斯拉內部員工。到了 2024 年 1 月,FSD V12 又分別在 1 月推送給媒體人——最終在 2 月份,特斯拉把 FSD V12 推送給一定范圍內的普通用戶。

從目前的反饋來看,在城市場景中,相對于依舊在規劃控制方面依賴于人工代碼的 FSD V11,基于神經網絡的 FSD V12 更加受到認可。

其中一個案例是,3 月 6 日,深度學習專家 James Douma 在體驗 FSD V12 后評價稱,與 V11 相比,V12 的人工干預將減少 100 倍以上,這并不是增量式的升級,而是一個飛躍,它強大得令人印象深刻。

他還表示,通過端到端路徑規劃和控制有效實現的一系列行為表明,僅靠更多更好的數據和訓練,特斯拉團隊就能夠實現「優于人類」(better than human)的目標——對于這一評價,馬斯克回應稱:這是非常準確的評估。

當然,從目前的情況來看,特斯拉在 AI 領域的探索,已經明顯跨越了「端到端」的范疇本身。

實際上,早在去年的計算機領域的國際頂級會議 CVPR 上,特斯拉 AI 負責人 Ashok Elluswamy 就進行過一場名為「Foundation Models for Autonomy」的主題演講。其中明確提到,特斯拉正在構建一些基礎模型,而占用網絡(Occuancy Network)就是已經融合其中、但并非以實體存在的重要一個。

更重要的是,Ashok Elluswamy 強調,一個真正的基礎大模型(Foundation Model)并不是諸多小任務的機械式疊加,而是能夠產生溢出效應。

他表示,特斯拉正在試圖構建一個更加通用的世界模型(General World Model),它能夠預測未來,能夠幫助神經網絡自主學習,能夠像一個神經網絡模擬器發揮作用,甚至能夠以 AI 的方式生成 3D 空間(并且根據人類的左右轉彎等指令,在八個攝像頭視角里同時進行一致性非常強的 3D 變換)。

正是基于這一前提,馬斯克才會在 2024 年 2 月 Sora 橫空出世時反復強調,特斯拉已經構建出了更加符合物理世界規律的生成式 AI。

而在這場演講的結尾,Ashok Elluswamy 強調,特斯拉之所以能夠構建上述基礎大模型,一方面是它擁有極端龐大的數據體量,另一方面是它已經擁有非常強大的算力基礎。盡管他在此處的目的是招募更多的人才加入特斯拉,但是從基礎原理上來說,海量數據和龐大算力確實構成了特斯拉構建基于真實世界的大模型的重要支柱。

他還明確表示,特斯拉 FSD 不僅僅是為了汽車機器人(Car Robot)而構建,也是為了人形機器人(Humanoid Robot)而構建。

同樣是在這次 CVPR 會議上,特斯拉 AI 團隊的另外一個成員 Phil Duan 也在演講中表示,特斯拉正在構建的是一個高度多樣化、高質量的數據集,并通過它來訓練一個基礎大模型(Foundation Model)。而在特斯拉看來,這將會是它通過構建大模型來賦能自動駕駛和具身智能(Embodied AI)的未來路徑。

非常有意思的是,根據馬斯克在去年下半年發布的視頻,特斯拉 Optimus 人形機器人已經用上了與其自動駕駛系統相同的端到端神經網絡,并且體現出了非常明顯的能力進化。

如今來看,以端到端為起點,特斯拉對于 AI 的探索已經進入到另一個階段,那就是通過單一基礎視頻網絡(a single foundation video network)來直接駕駛汽車——從技術范式上來說,通過端到端的算法變革,特斯拉已經整體上轉向類似于 OpenAI 旗下 GPT 這樣的大模型思維。

寫在最后

縱觀十年來的發展歷程,我們會發現,自動駕駛技術發展的底層驅動力,往往是 AI 技術本身的變化。

比如說,由 2012 年的 AlexNet 出發,深度卷積神經網絡(CNN)在此后數年時間里成為自動駕駛在感知領域常用的算法;到了 2020 年,在 Transformer 已經賦能于自然語言處理領域數年之后,為了解決 3D 空間感知的效率和功率問題,Transformer 又被引入到特斯拉自動駕駛的感知算法架構中。

而到了 2022 年底和 2023 年初,伴隨著 ChatGPT 的橫空出世,特斯拉又在大模型思維的啟發下轉向自動駕駛端到端,并由此進入到通過訓練單一的基礎大模型來構建更加通用的下一代自主系統(Autonomy)的發展路徑中。

然而,無論是如今的各類大模型,還是特斯拉的端到端,其底層算法架構中的關鍵組成部分依舊是誕生于 2017 年的 Transformer 算法,且短期內它很難被替代。

回過頭來看,很難否認的是,特斯拉在這條路徑上也是明顯受到了 OpenAI 和 ChatGPT 的影響,而這背后其實也是在自身業務層面的對于 Scaling Law 的遵循——從這個角度來看,在特斯拉和馬斯克的帶動之后,AI 發展對于自動駕駛發展產生直接影響的速度,變得越來越快。同時,自動駕駛與 AI 的關系也愈加緊密。

甚至有一種觀點認為,當 AI 發展到通用人工智能的時候,完全無人的自動駕駛也將能夠實現。

有意思的是,很少有人注意到,早在 2020 年 6 月,OpenAI 創始成員、當時擔任特斯拉 AI 負責人的 Andrej Karpathy 就已經在 Twitter 上發表了自己對 GPT 和自動駕駛發展的暢想,他的原話是:

Autopilot 的終極形態,應該是將車輛管理局手冊(DMV Handbook)的內容輸入到一個「大型多模態的 GTP-10」中,然后喂給它過去 10 秒的傳感器數據,使它跟著走。

從當時的情況來看,Andrej Karpathy 就已經密切關注著 Transformer 和 GPT,并且將其與特斯拉 Autopilot 相關聯——然而,站在當下的視角來回顧,如今我們在自動駕駛領域看到的一切和即將發生的一切,實際上在那個時候就已經被預見到,并提前埋下了伏筆。

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 乌拉特后旗| 甘德县| 吕梁市| 怀柔区| 留坝县| 邹平县| 青岛市| 陆川县| 射阳县| 德庆县| 景洪市| 宜黄县| 永城市| 城口县| 唐海县| 温州市| 抚州市| 台山市| 博罗县| 枣庄市| 平原县| 道真| 松潘县| 调兵山市| 阿图什市| 聊城市| 武夷山市| 包头市| 布拖县| 昌邑市| 剑河县| 福泉市| 金昌市| 汽车| 阿图什市| 淳安县| 镇雄县| 外汇| 乐陵市| 黑龙江省| 囊谦县|