自動駕駛能否取代人類司機(jī)?四通搬家公司與您探討


隨著二十一世紀(jì)計算設(shè)備和方法的突飛猛進(jìn),迎合人類惰性的自動駕駛技術(shù)晉級成為車輛工程領(lǐng)域的顯學(xué)之一。
自動駕駛實際上并不是一門單一學(xué)科,而是個綜合課題。涉及很多學(xué)科和交叉領(lǐng)域,包括但不限于:雷達(dá)學(xué)、計算機(jī)視覺、傳感器、圖形處理硬件、人工智能、深度神經(jīng)網(wǎng)絡(luò)、AI加速芯片、模擬電路、高精度衛(wèi)星定位、地圖學(xué)、倫理學(xué)、數(shù)學(xué)、控制工程等等。
不耽誤時間,先說結(jié)論:以目前可展望的技術(shù)未來,在三十至五十年的時間內(nèi),于非固定線路下實現(xiàn)通用的全自動駕駛技術(shù)是不可能的。
換句話說,就是00后退休之前,想在我國取代人類司機(jī)實現(xiàn)既能在城市中心區(qū)域又能在沒有道路標(biāo)線、電驢滿街跑的縣城道路上實現(xiàn)想去哪就去哪的全天候、全自動駕駛是不可能的。(注意本句中的條件和名詞,請勿斷章取義)
那么,為什么得出這個結(jié)論?自動駕駛技術(shù)又是如何實現(xiàn)和發(fā)展的?為什么從特斯拉到理想汽車都讓你感覺到自動駕駛近在咫尺,從而又和上述結(jié)論相矛盾呢?如果全自動駕駛希望渺茫,“半”自動駕駛能否實現(xiàn)?
本文將從自動駕駛領(lǐng)域的人工智能、計算機(jī)視覺這兩個主要方面帶你一窺門徑。
在我們的上一篇文章《監(jiān)控探頭如何識別你的車牌?》之中,我們向你闡述了基本的人工智能技術(shù)和深度神經(jīng)網(wǎng)絡(luò)的概念,強(qiáng)調(diào)并解釋了深度學(xué)習(xí)這個概念中“學(xué)習(xí)”二字的含義?,F(xiàn)在,我們將向你描述一下什么是“深度”。因為在實現(xiàn)自動駕駛的諸多技術(shù)中,基于深度神經(jīng)網(wǎng)絡(luò)的計算機(jī)視覺是必不可少的核心。

01
—
“深度”神經(jīng)網(wǎng)絡(luò)
在此我們跳出以往諸多文章中專注于對L0到L5自動駕駛分級的討論,我們直奔核心;現(xiàn)在幾乎所有對駕駛環(huán)境的計算機(jī)視覺感知都是通過神經(jīng)網(wǎng)絡(luò)來實現(xiàn)的。
我們?nèi)祟惡蛣游锏拇竽X學(xué)習(xí)效率極高且耗能極低,這讓迫切想使計算機(jī)具備自主學(xué)習(xí)能力的科學(xué)家們好奇起來,通過模仿大腦的神經(jīng)元結(jié)構(gòu)人們構(gòu)造出了神經(jīng)網(wǎng)絡(luò)。人腦的神經(jīng)網(wǎng)絡(luò)非常龐大且復(fù)雜,因此越具備深度的人工神經(jīng)網(wǎng)絡(luò)越能模仿生物大腦的學(xué)習(xí)功能。這種模仿生物神經(jīng)網(wǎng)絡(luò)而建立的人工神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中某一種或者多種物體的核心特征,目的在于使計算機(jī)能夠在復(fù)雜多變的現(xiàn)實環(huán)境中像人一樣識別各種“看”到的東西。
說起“深度”神經(jīng)網(wǎng)絡(luò),可能有人會問:“既然有深度神經(jīng)網(wǎng)絡(luò),那有沒有淺層神經(jīng)網(wǎng)絡(luò)?”——還真有,而且神經(jīng)網(wǎng)絡(luò)技術(shù)最開始應(yīng)用的時候就是只有淺層網(wǎng)絡(luò),后來經(jīng)過技術(shù)發(fā)展和迭代才有了今天的深層網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)這個由淺入深的發(fā)展路線完全建立在硬件和算法的進(jìn)步之上,這也是其魅力和強(qiáng)大功效所在,讓我們簡單地走馬觀花一下。

模仿生物大腦神經(jīng)元的神經(jīng)網(wǎng)絡(luò)在被科學(xué)家通過數(shù)學(xué)結(jié)構(gòu)于上世紀(jì)四十年代確立了以后,相關(guān)研究和實驗一直止步不前,因為誕生于二戰(zhàn)后的第一代電子計算機(jī)根本沒有足夠的計算能力去完全實現(xiàn)神經(jīng)網(wǎng)絡(luò)。直到八十年代,卷積神經(jīng)網(wǎng)絡(luò)誕生了。但是,在當(dāng)時硬件運(yùn)算能力有限、缺乏有效訓(xùn)練數(shù)據(jù)等因素的制約下,人們難以訓(xùn)練不產(chǎn)生大誤差的高性能深度神經(jīng)網(wǎng)絡(luò)。
在之前的文章中我們提到過,“學(xué)習(xí)”的本質(zhì)在于不斷降低與目標(biāo)之間的誤差從而不斷逼近正確的結(jié)果。神經(jīng)網(wǎng)絡(luò)中的最前端是輸入層,用來輸入訓(xùn)練數(shù)據(jù)也就是視覺圖像;最后是輸出層,用來給出結(jié)果。在輸入與輸出之間是隱藏層(隱層),隱層可能有很多個,隱層的數(shù)量越多,這個神經(jīng)網(wǎng)絡(luò)的深度也越深,這就是深度神經(jīng)網(wǎng)絡(luò)的“深度”由來。隱層的意義就是把輸入數(shù)據(jù)的特征,抽象到另一個維度空間,來展現(xiàn)其更抽象化的特征,一步一步收集這些特征能更好的進(jìn)行類別劃分。

上圖中的每一個圓圈就是人工神經(jīng)網(wǎng)絡(luò)的其中一個神經(jīng)元,每個神經(jīng)元的任務(wù)有三個:輸入、判斷、輸出。這些神經(jīng)元只要你輸入數(shù)據(jù)就能運(yùn)轉(zhuǎn)起來,就像汽車只要有油就能跑一樣。每一層神經(jīng)元的內(nèi)部是不互相連接的,而相鄰層的神經(jīng)元才互相連接。每個神經(jīng)元都具有自身的權(quán)重和值,訓(xùn)練的核心就是讓整個網(wǎng)絡(luò)中的神經(jīng)元去調(diào)整自己的權(quán)值使得整個輸出結(jié)果逼近我們需要的正確目標(biāo)。
現(xiàn)在,我們需要在這個數(shù)學(xué)結(jié)構(gòu)上把輸入傳遞給輸出,要怎么辦呢?答案是——矩陣乘法。當(dāng)我們做了一次矩陣乘法把輸入傳遞給了輸出之后得到一個結(jié)果,相當(dāng)于學(xué)習(xí)了一次,可是對計算機(jī)來說學(xué)習(xí)一次遠(yuǎn)遠(yuǎn)不能逼近正確的目標(biāo),需要學(xué)習(xí)很多次才行。那也意味著這一次的學(xué)習(xí)結(jié)果和目標(biāo)之間肯定存在誤差,因此我們需要把這個誤差反饋給整個網(wǎng)絡(luò),讓網(wǎng)絡(luò)中的神經(jīng)元去調(diào)整自己的權(quán)值以接近正確目標(biāo)。
所以我們就得讓這個誤差值沿著來路返回前端去告訴每個神經(jīng)元它們需要做出權(quán)重調(diào)整。這個權(quán)值如何計算呢?之前我們提到過,微積分中的導(dǎo)數(shù)可以求解變化率,所以在整個神經(jīng)鏈條上使用矩陣的鏈?zhǔn)角髮?dǎo)法則就可以了。這一系列的動作被稱為反向傳播算法,也是卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。
但是現(xiàn)在我們發(fā)現(xiàn)了兩個重大問題。如果用數(shù)學(xué)語言表達(dá)每個神經(jīng)元的作用(輸入、判斷、輸出),是這樣:

1、第一個問題就出在這個激活函數(shù)上,所謂的激活函數(shù)就是一個處理變量的計算式,通常的激活函數(shù)使用一種叫做Sigmoid的函數(shù)處理神經(jīng)網(wǎng)絡(luò)上傳遞給該神經(jīng)元的誤差值。

你不用知道這東西具體怎么算,只需看圖就成,藍(lán)色曲線是Sigmoid函數(shù)的原始圖像。前邊我們提到過,如果要處理途徑這個神經(jīng)元的誤差并根據(jù)這個誤差值計算這個神經(jīng)元所需要調(diào)整的權(quán)值,就需要計算函數(shù)的導(dǎo)數(shù)。但是這個Sigmoid函數(shù)的導(dǎo)數(shù)圖像是這個樣子(紫色曲線):

縱軸是函數(shù)值,橫軸是輸入值也就是所傳遞的誤差值。你可以看到,一旦輸入一個或大或小的誤差值,這個導(dǎo)數(shù)(紫色)的結(jié)果就迅速趨近于0。
這只是一個神經(jīng)元的處理過程,想象一下,如果有大量的神經(jīng)元在傳遞并計算誤差的導(dǎo)數(shù),也就是說上一個神經(jīng)元求出的導(dǎo)數(shù)作為一個因子通過矩陣乘法傳遞給下一個神經(jīng)元,那么只要經(jīng)過幾次傳遞,這個“誤差值”就會迅速的提前消失了,根本無法按原計劃一直返回前端并通知這個鏈條上的每一個神經(jīng)元做出修正。
這導(dǎo)致了很多本該做出調(diào)整的神經(jīng)元永遠(yuǎn)無法得到誤差通知,也就永遠(yuǎn)無法調(diào)整自己,這就意味著“學(xué)習(xí)”多少次都沒用。在這個問題解決之前,只能通過降低甚至取消隱層的層數(shù),也就是必須大量減少中間神經(jīng)元的數(shù)量,才能避免整個網(wǎng)絡(luò)學(xué)習(xí)失效,這個問題叫做梯度消失。
2、另一個麻煩在于神經(jīng)網(wǎng)絡(luò)的圖像學(xué)習(xí)機(jī)制。上篇文章我們提到過,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的過程和人腦視神經(jīng)元類似,它是通過對圖像進(jìn)行層層抽象、提取特征、學(xué)習(xí)特征來實現(xiàn)的。其中,這個“層層抽象”的過程就是通過大量隱層來完成的。

比如識別一張人臉圖,先抽取邊緣特征,再從邊緣特征中抽取出五官的各自特征,最后再總體看面部綜合特征。上圖只是簡單的示意圖,實際上中間需要大量的隱層來完成各種細(xì)節(jié)特征的抽象和提取。
問題就出在這,神經(jīng)網(wǎng)絡(luò)強(qiáng)制要求每層神經(jīng)元都對誤差進(jìn)行學(xué)習(xí)并調(diào)整自身,但是有一些特征或者說誤差并不需要被如此多次數(shù)的傳遞或調(diào)整,也就是說總存在一些應(yīng)該直接被傳遞給下一個神經(jīng)元而不需要在上一處做出改變的量。如果按照網(wǎng)絡(luò)要求,每層都必須強(qiáng)制完成自我調(diào)整任務(wù),沒有問題也要制造問題,那就是所謂的“教條主義”,這樣做會造成網(wǎng)絡(luò)學(xué)習(xí)效率非常低下,最后經(jīng)常出現(xiàn)偏差。
這個問題用術(shù)語解釋就是:對于神經(jīng)網(wǎng)絡(luò)來說,恒等映射并不容易擬合。
現(xiàn)在你可以了解了,在這兩個問題(尤其是第一個梯度消失問題)解決之前,人們無奈地發(fā)現(xiàn),只能通過降低甚至取消隱層的層數(shù)才能正常使用神經(jīng)網(wǎng)絡(luò),因此那時候的神經(jīng)網(wǎng)絡(luò)就是淺層神經(jīng)網(wǎng)絡(luò),這也是當(dāng)時未能實現(xiàn)算法優(yōu)化的妥協(xié)。
而淺層神經(jīng)網(wǎng)絡(luò)的問題就在于無法處理復(fù)雜的圖像,因為復(fù)雜的圖像需要多重隱層對大量復(fù)雜特征進(jìn)行抽象提取,缺乏深度的神經(jīng)網(wǎng)絡(luò)只能用于相對簡單的圖像學(xué)習(xí)。
這一時期的神經(jīng)網(wǎng)絡(luò)并不受到人們的重視,只有很少一部分學(xué)者執(zhí)著地將它們應(yīng)用到實際工程領(lǐng)域,其中就有今天全球計算機(jī)視覺的頂尖專家之一楊立昆(LeCun Yann),他是法國人,目前在Facebook從事人工智能研究。楊立昆在上世紀(jì)八十年代末首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了自動識別手寫支票的領(lǐng)域,這也第一次向世人證明了卷積神經(jīng)網(wǎng)絡(luò)在簡單圖像識別領(lǐng)域的價值。(有趣的是,這種在今天看來可能十分鐘就能訓(xùn)練完的僅有5層的淺層網(wǎng)絡(luò),當(dāng)時需要最好的計算機(jī)“連軸轉(zhuǎn)”上三天三夜。)

直到2011年,人們通過在神經(jīng)網(wǎng)絡(luò)中加入修正線性單元(ReLu)才徹底解決了梯度消失的問題。于是,從那個時候開始,神經(jīng)網(wǎng)絡(luò)逐漸開始深化,對神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像識別領(lǐng)域的研究和成果才開始迸發(fā)。
2015年,何愷明博士(2003年廣東省高考900分滿分狀元)通過向神經(jīng)網(wǎng)絡(luò)中加入“跳線”以便能夠跳層直接傳遞必要的恒等映射而無需經(jīng)過不必要的誤差處理操作,也就是說通過這跟“跳線”,原本一些只需要拷貝而不需要處理的上層特征信息終于可以直接傳遞給下一個神經(jīng)元了。換句話說,就是下一個神經(jīng)元可以直接學(xué)習(xí)上一層未經(jīng)處理的殘余誤差值,于是這種網(wǎng)絡(luò)稱為殘差神經(jīng)網(wǎng)絡(luò)(ResNet)。

這個創(chuàng)造性的跳層殘差結(jié)構(gòu)徹底解決了以往無法傳遞恒等映射的問題,使誤差特征或者上級擬合值能夠暢通無阻的傳遞到低層神經(jīng)元,這也使得殘差神經(jīng)網(wǎng)絡(luò)能夠訓(xùn)練以往難以企及的深達(dá)152層的人工神經(jīng)網(wǎng)絡(luò);這意味著ResNet-152能夠識別非常復(fù)雜的圖像。直到此時,基于神經(jīng)網(wǎng)絡(luò)的圖像識別領(lǐng)域才算是被徹底引爆,大量新的結(jié)構(gòu)、算法和應(yīng)用蜂擁而至,計算機(jī)視覺領(lǐng)域出現(xiàn)井噴。
再加上硬件領(lǐng)域的進(jìn)步,我們本次的主題——由人工神經(jīng)網(wǎng)絡(luò)所驅(qū)動的機(jī)器視覺自動駕駛由此開始呈現(xiàn)出爆發(fā)的趨勢。
(當(dāng)然了,以上只是人工神經(jīng)網(wǎng)絡(luò)的一些大致原理。在上次的車牌識別文章中我們提到過使用由卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動的目標(biāo)檢測器,實現(xiàn)這樣一個檢測器的原理就復(fù)雜多了,不僅需要雙重網(wǎng)絡(luò)而且其掃描待檢測圖像的方式具有很強(qiáng)的針對性以及繁雜的計算,不同的參數(shù)針對不同的物體。如果圖像分辨率變化過大或者掃描參數(shù)設(shè)置不合理,錯誤率就會比較高。也就是說不同位置的電子警察探頭都經(jīng)過了針對其位置的微調(diào)優(yōu)化。)
02
—
基于機(jī)器視覺的自動駕駛

作為一名老司機(jī),當(dāng)你坐上駕駛位時基本上就能做到“眼觀六路”,這是一名合格駕駛員的必備技能。
因此,對于自動駕駛來說,首要問題就是:看什么?怎么看?
看什么?
首先,你要知道路在哪,不能撞墻,所以你必須看路和車道線。
其次,你必須關(guān)注路上其他的物體,包括:其他車輛、障礙物、行人。
最后,你要遵守交通規(guī)則,也就是必須觀察:各種交通標(biāo)志和信號燈。
怎么看?
相對于“看什么”來說,“怎么看”才是技術(shù)專家們最關(guān)心的。
想必上邊提到的這些需要看的東西對于已經(jīng)是老司機(jī)的你完全不成問題,但是對于計算機(jī)來說卻是非常困難的任務(wù)。上文已經(jīng)向你展示了人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法,一張圖片的識別尚需如此繁瑣的步驟,那如果是實時的視頻信號呢?實際上,自動駕駛面對的就是大量的實時視頻監(jiān)控信息,也就是作為人類駕駛員的你所看到的所有路上信息都必須以實時視頻的形式輸入計算機(jī)并瞬間做出判斷。如果速度慢了,很可能是要出人命的。
換句話說,就是“量化一切”!舉個最簡單的例子,筆者非常熱衷于我國美食,也時常親自上手烹飪,酷愛那種帶有鼓風(fēng)機(jī)的噴火爐灶,但是最不喜歡的也是在菜譜上看到“少許、適量、酌情添加”這樣的字眼!我要是知道“少許、適量”是多少我還看菜譜干啥?!當(dāng)然,也有人說這就是中國菜的精髓所在。但是,對于計算機(jī)來說,這樣純靠感覺的模糊表達(dá)絕對是行不通的,“感覺”是生物的獨有技能,對于電腦來說,所有司機(jī)看到的和應(yīng)該看到的信息都必須被徹底量化、計算和考察?。惚仨毟嬖V我:根據(jù)我這個鍋的大小,用多大的勺!放幾勺鹽??。∈呛{}還是精鹽??。。?/p>
得益于專用硬件加速技術(shù)的飛速發(fā)展,今天的我們才終于有能力使用足夠強(qiáng)大的電腦硬件去針對每種細(xì)分對象訓(xùn)練一個專業(yè)且極具深度和可靠性的人工深度神經(jīng)網(wǎng)絡(luò)。
以識別車道線為例,這里展示了基于機(jī)器視覺的自動駕駛?cè)绾螌崟r識別車道線,并嚴(yán)格按照車道線行駛:
如果我們將各種車道線的圖像用復(fù)雜的數(shù)學(xué)公式去表示,神經(jīng)網(wǎng)絡(luò)所能做到的就是不斷調(diào)整自身的網(wǎng)絡(luò)結(jié)構(gòu)去貼合(擬合)這個車道線表達(dá)式。從這一點可以看出,人工神經(jīng)網(wǎng)絡(luò)天然具有很強(qiáng)的單一類目標(biāo)針對性,這是強(qiáng)項也是不足。
就像視頻中提到的,由于神經(jīng)網(wǎng)絡(luò)強(qiáng)烈的特定目標(biāo)學(xué)習(xí)特性,因此單一神經(jīng)網(wǎng)絡(luò)的泛用性不佳,必須針對不同類型的交通標(biāo)志或者不同外觀特征的物體部署多個神經(jīng)網(wǎng)絡(luò)協(xié)同工作,以便有針對性的提升每個網(wǎng)絡(luò)對它所擅長的目標(biāo)的檢測能力。
接下來的例子更具代表性:識別交通標(biāo)志。

要知道,交通標(biāo)志種類繁多,還受到自然環(huán)境的影響,各種不同類型的交通標(biāo)志差異非常大,這種差異遠(yuǎn)遠(yuǎn)大過不同車型外觀的差異;并且很多交通標(biāo)志上存在相對復(fù)雜的多行文字,使用單一的神經(jīng)網(wǎng)絡(luò)對所有交通標(biāo)志進(jìn)行甄別顯然是做不到的。必須針對不同類型的交通標(biāo)志訓(xùn)練多個專門識別其中一種標(biāo)志的神經(jīng)網(wǎng)絡(luò)。此外,為滿足數(shù)據(jù)更新的速度和數(shù)據(jù)準(zhǔn)確度的要求,對于算法的性能要求也格外嚴(yán)格,要做到“瞬發(fā)”,也就是實時判斷,不能有超過人類判斷時間的延遲。
本質(zhì)上,識別的過程就是分類。
高德地圖提供了一種有效的方法。
首先,目標(biāo)檢測階段的目的是通過神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測器在圖片中檢測所有的交通標(biāo)志,并進(jìn)行粗分類。然后將檢測目標(biāo)根據(jù)外形特征分為多個大類(如圓形、三角形、方形,以及高寬比異常的人行橫道等),再為每一類配置專屬的RPN網(wǎng)絡(luò),各個RPN根據(jù)對應(yīng)的目標(biāo)尺寸特性設(shè)計不同的掃描區(qū)域;不同RPN根據(jù)需要使用不同層的特征圖,設(shè)計更有針對性。
這個RPN網(wǎng)絡(luò)就是Faster RCNN目標(biāo)檢測器的雙重網(wǎng)絡(luò)之一,它并不負(fù)責(zé)最后的結(jié)果分類,它只負(fù)責(zé)選取出圖像中可能是目標(biāo)的這類對象的候選區(qū)域。接下來就是把RPN產(chǎn)生的候選區(qū)域輸入到分類網(wǎng)絡(luò)中進(jìn)行最終的分類。

? ??最后為每個大類交通標(biāo)志配置獨立的精細(xì)分類網(wǎng)絡(luò),互相之間不干擾;各個大類的迭代完全獨立和并行。

簡而言之,就是對簡單標(biāo)志用簡單一些的網(wǎng)絡(luò),對復(fù)雜標(biāo)志用另一個復(fù)雜一些的網(wǎng)絡(luò),而且要做到協(xié)同且互不干擾,還能隨時更新。
通過多個深淺不同的神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測器協(xié)同工作,最終可以獲得不錯的檢測效果:



行人和車輛檢測也是類似的方法。如果僅從行人安全檢測這方面來說,自動駕駛確實比人類更安全,因為人類司機(jī)從看到突然出現(xiàn)的行人到踩下剎車踏板大概需要0.5秒,但是計算機(jī)只需0.2秒,別小看這0.3秒的差距,在高速行駛中,這0.3秒就是數(shù)十米的距離。
下邊讓我們來看一看英偉達(dá)實驗室將上述所有這些機(jī)器視覺檢測技術(shù)以及多重神經(jīng)網(wǎng)絡(luò)綜合運(yùn)用時,當(dāng)前的全自動駕駛能夠達(dá)成的效果:
另外,類似于傳統(tǒng)汽車的倒車?yán)走_(dá),當(dāng)前的自動駕駛通過毫米波雷達(dá)以及超聲波雷達(dá)來近距離測距,用來感知車輛周圍尤其是前后車距。
03
—
事故與結(jié)論
說了這么多,我們還沒有忘記本文開頭的結(jié)論:以目前可展望的技術(shù)未來,在三十至五十年的時間內(nèi),于非固定線路下實現(xiàn)通用的全自動駕駛技術(shù)是不可能的。
通過上述文章,你應(yīng)該大概了解了當(dāng)前全自動駕駛的基本原理。所以我們就可以明確的指出其局限性所在了。
1、車道線依賴
正如上邊的技術(shù)展示,人類可以非常輕松的在完全沒有車道線或者車道線極為不清的路上自主判斷行駛,但是計算機(jī)不成,計算機(jī)必須依靠畫在地上的各種車道線,這不僅造成了在中國的國情下,很多車道劃線不全的或者沒有車道線的縣道、舊路甚至一些國道上全自動駕駛可能完全“看不到”路,而且道路上未清除的舊標(biāo)線甚至蓄意亂畫的車道線可以輕松欺騙自動駕駛造成路線突然自動切換,這會造成嚴(yán)重的交通事故。
已經(jīng)有視頻證實,特斯拉的自動駕駛無法分辨畫在路上的突然轉(zhuǎn)向的假車道線:

甚至現(xiàn)在的自動駕駛還會混淆用3D畫法畫在地上的假人,造成緊急停車。
更有意思的是,故意在路邊視頻廣告中插入只閃現(xiàn)一瞬(一幀)的“緊急停車”標(biāo)志就可以逼停自動駕駛。因為自動駕駛的探頭感知比人類靈敏,能看到那一瞬間的緊急停車標(biāo)志,于是就認(rèn)為前方需要緊急停車。如果在高速路邊有人蓄意如此干擾,后果也會很嚴(yán)重。
另外,當(dāng)前具備車道保持功能的車輛在實踐中表明,位于右側(cè)車道的車道保持功能常常將匝道上的限速或者路邊各種不是交通標(biāo)志的數(shù)字識別成為“限速”,這就導(dǎo)致了常常莫名其妙的突然降速,嚴(yán)重影響駕駛輔助體驗。
2、成本
自動駕駛的未來迫切需要更全面和更靈敏的全方位感知,實踐證明僅僅依靠多個攝像頭還不夠,還需要一種叫做激光雷達(dá)(LiDAR)的設(shè)備,這是一種類似通過激光測距和多頻譜空間掃描來對車輛周圍世界做出全息3D建模的雷達(dá)設(shè)備,售價相當(dāng)不菲,是高清攝像頭的幾十倍,難以得到普及。

3、衛(wèi)星和地圖依賴
目前,自動駕駛強(qiáng)烈地依賴高精度衛(wèi)星定位和超高清地圖數(shù)據(jù)。衛(wèi)星信號無法保證在任何時候都足夠清晰。更關(guān)鍵的是超高清地圖數(shù)據(jù)的問題。這種地圖數(shù)據(jù)和普通車載或手機(jī)導(dǎo)航中的地圖不一樣,超高清的交通地圖精確到厘米,而且包含更詳細(xì)的道路交通標(biāo)志信息。這樣的超高清地圖測繪牽涉到國防安全問題,注定不可能在所有地方普及,而且中國幅員遼闊,也不可能做到普及。
這也將目前的試驗型全自動駕駛局限在了固定線路上。
4、國情以及有待改進(jìn)的視覺識別算法
當(dāng)前,美國自動駕駛發(fā)生的事故數(shù)量是傳統(tǒng)汽車的5倍。
另一邊,在中國,大量因為堵車而購買帶有“自適應(yīng)巡航”也就是自動跟車功能的車主表示這個功能形同雞肋。原因在于當(dāng)前的自動跟車無法很好的處理“加塞兒”車,這就是中國國情?,F(xiàn)在的自動跟車面對側(cè)方的加塞兒車要么判定為緊急狀況,立即像撞墻一樣緊急制動,要么看不到一點一點蹭進(jìn)來的加塞兒車,仍然不管不顧地向前行駛。這樣一來,本想通過自動跟車來節(jié)省精力的司機(jī)卻反而要時刻保持十二分的精神,簡直是本末倒置、削足適履。
此外,最近使用輔助駕駛導(dǎo)致理想汽車發(fā)生高速斜方追尾的危險事故表明,L2級輔助駕駛?cè)匀淮嬖诰窒扌?,無法識別旁邊車道上車輛變?nèi)胫鬈嚨?,沒法在旁邊車道車輛并入 1/5 車身的時候識別成主要目標(biāo)。



嚴(yán)格地說,將這樣的事故完全歸咎于理想沒有意義。因為這是目前基于機(jī)器視覺的自動駕駛算法可能存在的通病,尤其是考慮到中國的國情,大量存在的各種不夠“識別標(biāo)準(zhǔn)”的道路信息和移動目標(biāo)。前邊說過了,自動駕駛的視覺訓(xùn)練具有相對嚴(yán)格的針對性,無法做到萬金油似的通用算法。此外,全自動駕駛是非常非常遵守交通規(guī)則和駕駛道德的,高峰時段想加個塞兒?右轉(zhuǎn)道上想直行?想使勁踩一腳油阻止別人超車并入?做夢吧!
所以,在未來相當(dāng)長的一段時間內(nèi),無法在全天候、任意路段實現(xiàn)全自動駕駛。換句話說,全自動駕駛的近未來根本就不應(yīng)該專注于通用型全自動駕駛,只須在有針對性的區(qū)域內(nèi)實現(xiàn)就可以了,例如:一線和二線城市的核心城區(qū),設(shè)施完善的高速公路或者路途較短的商業(yè)固定線路運(yùn)輸(公交車或者物流)。一旦駛出這些支持全自動駕駛的區(qū)域,電腦把車輛控制權(quán)重新交給人類就可以了。因為目前看來,對通用型全自動駕駛的研究投入完全談不上商業(yè)回報,根本不具備投入產(chǎn)出比。

那么真正意義上想去哪就去哪,任何情況、任何路段都能實現(xiàn)全自動駕駛的人工智能系統(tǒng)是什么樣子呢?——它是這樣的:

所以,我們距離終結(jié)者這樣的通用型強(qiáng)人工智能系統(tǒng)還非常遙遠(yuǎn),目前仍然看不到實現(xiàn)這樣人工智能的希望。
但是我們不需要悲觀,人類的惰性總會驅(qū)使我們不斷通過技術(shù)來改善生活。自動駕駛領(lǐng)域當(dāng)前的目標(biāo)在于實現(xiàn)一定程度上的駕駛輔助,比如自動跟車之類的,這些畢竟都在我們的智慧和技術(shù)力所能及的范圍之內(nèi)。所以基于機(jī)器視覺的自動駕駛系統(tǒng)的目的不在于徹底取代人類司機(jī),它也沒有能力完全取代人類,它的目的在于讓我們的駕駛變得更加簡單,能讓我們將以往消耗于枯燥駕駛行為上的精力投入到更有意義的領(lǐng)域中去。
