回看自動(dòng)駕駛十年,回答毫末智行DriveGPT是怎樣煉成的?
文|鄰章
“人們總是在短期高估一兩年時(shí)間取得的成績(jī),而低估了五到十年能夠取得的進(jìn)展。”
1997年,IMB的深藍(lán)打敗俄羅斯國(guó)際象棋大師卡斯帕羅夫。
2016年,谷歌Deepmind的AlphaGo打敗了人類圍棋九段高手李世石。
2023年初,ChatGPT徹底火爆全球,引發(fā)大眾狂歡,比爾蓋茨的這一判斷被一再驗(yàn)證。

大眾的狂歡非常容易理解,因?yàn)锳I的每一次出手都超過了大眾心理預(yù)期。同時(shí)人們也很容易將人工智能捧上神壇,甚至很多樂觀者認(rèn)為“奇點(diǎn)”將至,悲觀者又認(rèn)為AI替代人類已近在咫尺。
人工智能是一個(gè)長(zhǎng)周期回報(bào)的技術(shù)。
過去數(shù)十年間,AI技術(shù)經(jīng)歷了由專家系統(tǒng)、知識(shí)圖譜到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí),以及直到今天的大模型階段。每一次技術(shù)躍遷的時(shí)間雖然在縮短,但仍然是一個(gè)需要前期積累、長(zhǎng)期投入的過程。
自動(dòng)駕駛,這個(gè)被譽(yù)為人工智能王冠上的明珠,正是隨著2012年深度學(xué)習(xí)技術(shù)的突破,才真正迎來產(chǎn)業(yè)化的可能。從過去十年進(jìn)程來看,自動(dòng)駕駛同樣呈現(xiàn)出技術(shù)長(zhǎng)周期的特征,并不會(huì)因?yàn)樯虡I(yè)、資本、大眾的期望而立即實(shí)現(xiàn)或者因?yàn)樵庥龃煺鄱磺啊?/p>
一、你有你的計(jì)劃,我有我的節(jié)奏
經(jīng)過十年技術(shù)的演進(jìn),自動(dòng)駕駛迎來這樣一個(gè)新階段。
首先是自動(dòng)駕駛的算法訓(xùn)練正在從深度學(xué)習(xí)早期的CNN等神經(jīng)網(wǎng)絡(luò)模型轉(zhuǎn)向以Attention注意力機(jī)制為特征的Transformer大模型的使用,自動(dòng)駕駛在感知、認(rèn)知乃至極端場(chǎng)景的仿真訓(xùn)練、大規(guī)模數(shù)據(jù)標(biāo)注都有大模型參與其中。
其次是圍繞大模型訓(xùn)練的云端算力平臺(tái),以及與車端多模態(tài)、多數(shù)量、高質(zhì)量傳感器以及車端算法適配的高算力計(jì)算平臺(tái)也已經(jīng)紛紛落地,從理論上已經(jīng)可以支持完全自動(dòng)駕駛級(jí)別的算力要求。
再次是乘用車輔助駕駛迎來爆發(fā)期,大規(guī)模多傳感器、高算力車型的量產(chǎn)落地,使得“數(shù)據(jù)驅(qū)動(dòng)”技術(shù)升級(jí)形成閉環(huán),為自動(dòng)駕駛算法和算力提供了源源不斷的燃料。
十年為期,這一數(shù)據(jù)閉環(huán)是如何發(fā)生的?
這幾乎是留給自動(dòng)駕駛從業(yè)者的最后一道大題了。
目前,行業(yè)里優(yōu)秀的答案,就是特斯拉的Autopilot和FSD。
盡管行業(yè)對(duì)特斯拉自動(dòng)駕駛的故事已經(jīng)非常熟悉,但這里仍然可以提綱挈領(lǐng)地總結(jié)幾點(diǎn)成功經(jīng)驗(yàn)。
首先是Autopilot軟硬件系統(tǒng)的快速迭代,確保了特斯拉車型實(shí)現(xiàn)規(guī)模量產(chǎn)的同時(shí),其車端AP系統(tǒng)的數(shù)據(jù)積累能夠保持同樣的高速增長(zhǎng)。
而且從Autopilot2.0起,其感知系統(tǒng)就標(biāo)配了8顆攝像頭,確保了采集數(shù)據(jù)的一致性。為后面數(shù)據(jù)處理的成本打下基礎(chǔ)。

其次是特斯拉車端高端算力芯片的預(yù)埋和超算中心Dojo的建設(shè)。特斯拉不僅自研了FSD車端大算力芯片,而且實(shí)現(xiàn)了車端的預(yù)裝,并通過軟件售賣的模式來實(shí)現(xiàn)商業(yè)化。這一舉措無形中確保車輛具備了實(shí)現(xiàn)高階輔助駕駛的能力。
同時(shí),特斯拉在近兩年加快了超算中心的建設(shè),來進(jìn)一步處理數(shù)十億公里的輔助駕駛的行駛里程數(shù)據(jù)。這奠定了特斯拉自動(dòng)駕駛技術(shù)的基礎(chǔ)設(shè)施。
第三就是特斯拉對(duì)以Transformer大模型為代表的最新AI技術(shù)在自動(dòng)駕駛上的探索和應(yīng)用。從連續(xù)兩年的AI DAY看出,特斯拉找到了讓視覺感知能力快速提升的方法,尤其是基于Transformer實(shí)現(xiàn)的BEV感知空間,如今已成為當(dāng)前自動(dòng)駕駛感知的主流。
簡(jiǎn)單理解BEV的優(yōu)勢(shì),就是基于BEV空間下的感知結(jié)果與決策規(guī)劃所需的坐標(biāo)系統(tǒng)是統(tǒng)一的,感知和下游的聯(lián)系得到進(jìn)一步增強(qiáng)。
但很快,特斯拉從2D的BEV空間快速提升到帶有時(shí)序特征的信息,使得FSD系統(tǒng)獲得幀間連續(xù)的感知結(jié)果,從而獲得了應(yīng)對(duì)視野盲區(qū)和遮擋的能力。

而到去年,特斯拉又帶來了Occupancy Network,使得BEV感知又在高度方向進(jìn)一步擴(kuò)展,最終形成了帶有4D(時(shí)序+3D柵格)結(jié)構(gòu)的場(chǎng)景。通俗講,這就幾乎使得自動(dòng)駕駛的感知系統(tǒng)實(shí)現(xiàn)向人類視覺一樣的立體視野,可以更好地預(yù)測(cè)一般障礙物和運(yùn)動(dòng)障礙物的意圖、速度等信息。
總之,特斯拉的技術(shù)路線以及量產(chǎn)模式為全球自動(dòng)駕駛行業(yè)打出一個(gè)“樣板”。
二、特斯拉的模式是可以復(fù)制的嗎?
事實(shí)上,是可以的。
如果盤點(diǎn)中國(guó)自動(dòng)駕駛行業(yè),我們可以發(fā)現(xiàn)一家非常典型的“特斯拉”路線的自動(dòng)駕駛公司——毫末智行。

今年初,毫末智行有兩個(gè)動(dòng)作,一個(gè)是發(fā)布了自動(dòng)駕駛行業(yè)最大的智算中心,另一個(gè)則是發(fā)布了自動(dòng)駕駛版的ChatGPT,毫末稱之為“DriveGPT”。
DriveGPT實(shí)際上是毫末在自動(dòng)駕駛認(rèn)知大模型上的成果,其核心是基于真實(shí)人駕數(shù)據(jù),特別是將人駕接管數(shù)據(jù)引入大模型當(dāng)中,持續(xù)優(yōu)化自動(dòng)駕駛的認(rèn)知決策模型。
為什么DriveGPT也能稱之為“GPT”呢?
首先,GPT是一個(gè)大規(guī)模的通用預(yù)訓(xùn)練大模型,而DriveGPT正是采用了與ChatGPT一樣的具有Attention注意力機(jī)制的Transformer架構(gòu)的大模型,其特點(diǎn)是隨著模型參數(shù)規(guī)模、數(shù)據(jù)規(guī)模增加以及訓(xùn)練方法的提升,模型算法的效果也穩(wěn)步提升,適應(yīng)性更好。

其次,DriveGPT與ChatGPT一樣,都使用了通過人類反饋的強(qiáng)化學(xué)習(xí)算法RLHF,都會(huì)基于真實(shí)數(shù)據(jù)來訓(xùn)練獎(jiǎng)勵(lì)模型(reward model),最終得到最優(yōu)結(jié)果。不同的是,ChatGPT使用的是人類的語(yǔ)言文本,而DriveGPT使用的是人駕數(shù)據(jù)。
最后,DriveGPT也和ChatGPT一樣,都屬于生成式模型,都是基于歷史序列預(yù)測(cè)未來序列,從而能夠完成下一步的預(yù)測(cè)與規(guī)劃的決策輸出。
據(jù)透露,毫末目前已經(jīng)完成DriveGPT的模型搭建和第一階段數(shù)據(jù)跑通,現(xiàn)在的參數(shù)規(guī)??梢詫?duì)標(biāo)GPT-2的水平。
事實(shí)上,對(duì)于毫末智行這樣一家自動(dòng)駕駛初創(chuàng)公司,能夠在ChatGPT這種超大模型應(yīng)用推出之前,就已經(jīng)開始對(duì)于大模型的應(yīng)用,其技術(shù)布局和落地進(jìn)度已經(jīng)遠(yuǎn)超行業(yè)認(rèn)知了。
三、毫末智行是如何將“DriveGPT”練成的?
我們其實(shí)可以從剛剛對(duì)自動(dòng)駕駛技術(shù)長(zhǎng)周期的探索中找到回答這一問題的線索。
第一,毫末用最快速度和最短時(shí)間實(shí)現(xiàn)了智能輔助駕駛產(chǎn)品的規(guī)模量產(chǎn),同時(shí)打通了數(shù)據(jù)閉環(huán)。
要知道,毫末智行僅僅是一家才成立三年多一點(diǎn)的科技公司。入局時(shí)間已經(jīng)是自動(dòng)駕駛行業(yè)跌宕起伏,行至中局的節(jié)點(diǎn)。好處是毫末可以避免前面自動(dòng)駕駛公司踩過的坑,毫末堅(jiān)定地選擇了乘用車輔助駕駛賽道,走漸進(jìn)式路線,依托長(zhǎng)城量產(chǎn)優(yōu)勢(shì),快速實(shí)現(xiàn)了L2輔助駕駛的規(guī)模落地。
同樣,劣勢(shì)也擺在那里,就是留給毫末進(jìn)行市場(chǎng)驗(yàn)證的機(jī)會(huì)沒有太多。因此,毫末快速投入了產(chǎn)品的迭代,在21年初推出HPilot1.0之后,很快就推出2.0和3.0產(chǎn)品,并且在3.0產(chǎn)品上實(shí)現(xiàn)了類似特斯拉FSD的飛躍式的換代。

依托1.0和2.0的量產(chǎn),毫末已經(jīng)積累了3300多萬公里的輔助駕駛里程,并且從官方公布數(shù)據(jù)來看,已經(jīng)取得中國(guó)各大縣市的城區(qū)、城市快速路和高速的大規(guī)模、多樣性的數(shù)據(jù)。這里應(yīng)該就包括大量的感知數(shù)據(jù)和真實(shí)人駕數(shù)據(jù)。
我們也知道,毫末一直以來對(duì)外技術(shù)布道的一點(diǎn)就是率先推出中國(guó)首個(gè)自動(dòng)駕駛數(shù)據(jù)智能體系MANA。大力投入這一體系建設(shè)的目的就是加快數(shù)據(jù)的使用效率,降低數(shù)據(jù)使用成本,從而實(shí)現(xiàn)毫末所說的“數(shù)據(jù)驅(qū)動(dòng)”。
第二,毫末以非常前沿的技術(shù)視野,率先展開對(duì)新型的人工智能技術(shù)的研究,并且真正推動(dòng)這些技術(shù)在自動(dòng)駕駛算法上的落地。這一點(diǎn)幾乎可以是與特斯拉同步的。

從媒體總結(jié)的這張圖來看,其實(shí)就能看到毫末與特斯拉在技術(shù)路線上的“異曲同工”。
根據(jù)公開資料,毫末從2021年7月,就開始啟動(dòng)對(duì)Transformer的研究和落地嘗試,成為中國(guó)第一家應(yīng)用Transformer的自動(dòng)駕駛公司。
在22年9月的AIDAY上,毫末已經(jīng)表示可以借助Transformer實(shí)時(shí)建模能力,對(duì)多模態(tài)融合感知數(shù)據(jù)進(jìn)行數(shù)據(jù)前融合,搭建具有時(shí)序特征的立體場(chǎng)景,讓自動(dòng)駕駛系統(tǒng)具有強(qiáng)大實(shí)時(shí)感知能力,在城市環(huán)境中不依賴高精地圖的情況下,實(shí)現(xiàn)應(yīng)對(duì)道路模糊、復(fù)雜路口、環(huán)島等道路感知挑戰(zhàn)。
到今年的1月份,毫末已經(jīng)在自動(dòng)駕駛各個(gè)領(lǐng)域,都在進(jìn)行基于Transformer結(jié)構(gòu)的大模型的搭建,而且一次發(fā)布了五個(gè)。
其中,在數(shù)據(jù)處理上,基于視覺自監(jiān)督大模型,可以實(shí)現(xiàn)對(duì)多模態(tài)感知數(shù)據(jù)的大規(guī)模自動(dòng)標(biāo)注;基于3D重建大模型,可以實(shí)現(xiàn)數(shù)據(jù)生成,通過仿真模擬極端場(chǎng)景,提升感知效果。
在感知端,基于多模態(tài)互監(jiān)督大模型,可以完成一般障礙物以及通用障礙物的識(shí)別,更好地提升感知能力;基于動(dòng)態(tài)環(huán)境大模型,可以更精準(zhǔn)預(yù)測(cè)道路拓?fù)潢P(guān)系,幫助車輛更穩(wěn)定、合理地規(guī)劃行駛路線。

在認(rèn)知端,毫末人駕自監(jiān)督認(rèn)知大模型,引入了基于數(shù)千萬公里的真實(shí)駕駛行為數(shù)據(jù)做預(yù)訓(xùn)練,可以使得駕駛策略更加擬人化,同時(shí)引入了司機(jī)接管數(shù)據(jù)來不斷修正駕駛策略,提升駕駛水平,不斷接近優(yōu)秀人駕水平。
此次升級(jí)的DriveGPT正是這一人駕自監(jiān)督認(rèn)知大模型的落地應(yīng)用,接下來DriveGPT會(huì)作為云端測(cè)評(píng)模型,用來評(píng)估車端小模型的駕駛決策效果。
第三就是毫末對(duì)自動(dòng)駕駛新階段自動(dòng)駕駛技術(shù)趨勢(shì)以及新階段基礎(chǔ)設(shè)施的提前布局。
實(shí)際上,毫末也在其AI DAY和行業(yè)大會(huì)上,多次表達(dá)了對(duì)自動(dòng)駕駛技術(shù)演進(jìn)趨勢(shì)的看法。
也就是現(xiàn)在自動(dòng)駕駛行業(yè)正在從小規(guī)模數(shù)據(jù)、小模型的軟件驅(qū)動(dòng)的2.0時(shí)代向大規(guī)模數(shù)據(jù)、大參數(shù)模型為代表的數(shù)據(jù)驅(qū)動(dòng)的3.0時(shí)代的跨越階段。

毫末實(shí)事求是地將自己定位為“3.0時(shí)代的沖刺者”,意味著大模型的探索和布局只是一個(gè)開始。
毫末CEO顧維灝曾在去年表示,當(dāng)前,為應(yīng)對(duì)3.0時(shí)代的挑戰(zhàn),整個(gè)自動(dòng)駕駛行業(yè)要努力解決這三個(gè)問題:
1、通過建設(shè)智算中心和優(yōu)化訓(xùn)練效率,降低大模型的云端訓(xùn)練成本;
2、通過改進(jìn)車端芯片,定制Transformer專用加速芯片來提升計(jì)算效能;
3、通過改進(jìn)車端模型,通過輕量化模型來提升計(jì)算效率。
這些問題會(huì)考驗(yàn)很多的從毫末最近公開演講來看,毫末已經(jīng)在提出自己的方案。
為打造云端的低碳算力。毫末推出了自動(dòng)駕駛的第一個(gè)智算中心,算力高達(dá) 67億億次/秒。通過一系列的訓(xùn)練框架、性能、通信等優(yōu)化,可單機(jī)實(shí)現(xiàn)訓(xùn)練100億參數(shù)規(guī)模的大模型的能力,同時(shí)執(zhí)行多任務(wù)、多模態(tài)并行的訓(xùn)練,大幅提升計(jì)算效率。

在車端,毫末在探索和關(guān)注更適合具有Attention特點(diǎn)的輕量化模型和Transformer加速芯片,減少車端模型的計(jì)算量、耗能,同時(shí)增加計(jì)算效率,從而實(shí)現(xiàn)大模型在車端的應(yīng)用。
總體看,毫末找到了自己通向自動(dòng)駕駛終局的“通路”。通過量產(chǎn)輔助駕駛的規(guī)模量產(chǎn),積累海量數(shù)據(jù),回到云端大模型實(shí)現(xiàn)數(shù)據(jù)的處理和算法的訓(xùn)練,然后,再經(jīng)過算法的優(yōu)化和車端部署,實(shí)現(xiàn)更好的產(chǎn)品效果,完成數(shù)據(jù)閉環(huán),形成毫末特色的技術(shù)路線。
這是毫末堅(jiān)定地沖刺自動(dòng)駕駛3.0時(shí)代的勇氣所在。
后記:旁觀無解,唯有“過河”
看到這里,我們其實(shí)對(duì)自動(dòng)駕駛技術(shù)的演進(jìn)邏輯,應(yīng)該有了一個(gè)清晰的認(rèn)識(shí)。
技術(shù)的創(chuàng)新從來不會(huì)在一夜之間到來,不會(huì)像阿拉伯神燈那樣許下心愿就可以實(shí)現(xiàn);技術(shù)的突破也不會(huì)在遇到難關(guān)之后就止步,這又不符合人類認(rèn)知的經(jīng)驗(yàn)。
人工智能技術(shù)本質(zhì)是什么?它是一種對(duì)于人類智慧的模擬地計(jì)算,是通過人工系統(tǒng)的方式去模擬人類神經(jīng)系統(tǒng)的神秘莫測(cè)的運(yùn)作。
自動(dòng)駕駛本質(zhì)又是什么?人類駕駛只不過是人腦當(dāng)中一種非?;A(chǔ)的能力,人一旦學(xué)會(huì)操控駕駛系統(tǒng),大腦就很容易進(jìn)入一種《思考快與慢》當(dāng)中的“系統(tǒng)1”的運(yùn)作狀態(tài)。
如此類比,自動(dòng)駕駛其實(shí)是人工智能較為初階的應(yīng)用場(chǎng)景,在今天仍然需要無數(shù)聰明的頭腦殫精竭慮地去攻克一個(gè)又一個(gè)智能難題。
而這個(gè)解謎的過程,其實(shí)別無他法,只能躬身入局。
對(duì)于很多站在自動(dòng)駕駛藍(lán)海岸邊的等待者和批評(píng)者,我們可以一起回憶下孩童時(shí)學(xué)過一個(gè)叫《小馬過河》的寓言故事。
對(duì)于自動(dòng)駕駛,就像故事中的那條河流,它既不會(huì)深到難以逾越,也不會(huì)輕而易舉就能渡過。
它自有其生長(zhǎng)的節(jié)奏。我們要親自“過河”。