x.ai還是OpenAI?埃隆·馬斯克的AI帝國(guó)【2】

上期內(nèi)容咱們提到了埃隆馬斯克的特斯拉是自動(dòng)駕駛領(lǐng)域的領(lǐng)導(dǎo)者,大家可能近些年也都有從各類渠道聽到過Tesla自動(dòng)駕駛有關(guān)的新聞。不同于像包括Google子公司W(wǎng)aymo在內(nèi)的大多數(shù)使用激光雷達(dá)來實(shí)現(xiàn)自動(dòng)駕駛的公司,特斯拉采用的是只需要視頻輸入就能理解汽車周圍環(huán)境,并實(shí)現(xiàn)自動(dòng)駕駛的方法。在2021年的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議CVPR 2021的自動(dòng)駕駛研討會(huì),特斯拉首席人工智能科學(xué)家Andrej Karpathy詳細(xì)介紹了特斯拉的這套基于深度學(xué)習(xí)的自動(dòng)駕駛系統(tǒng)。
神經(jīng)網(wǎng)絡(luò)算法,如deep neural networks等,是自動(dòng)駕駛領(lǐng)域的主要技術(shù),但是深度學(xué)習(xí)在檢測(cè)圖像中的物體時(shí)也會(huì)出錯(cuò)。反對(duì)純計(jì)算機(jī)視覺方法的主要論點(diǎn)是,神經(jīng)網(wǎng)絡(luò)是否可以在沒有激光雷達(dá)深度圖幫助的情況下進(jìn)行測(cè)距和深度估計(jì)存在不確定性。為了解決現(xiàn)有深度學(xué)習(xí)框架識(shí)別圖像不夠準(zhǔn)確的問題,特斯拉找到的第一劑靈丹妙藥是他們包含數(shù)百萬視頻的、而且經(jīng)過精心標(biāo)注的龐大數(shù)據(jù)集。
為了更高效的處理和標(biāo)注數(shù)據(jù),特斯拉開發(fā)了一套具有巧妙分工的半自動(dòng)數(shù)據(jù)標(biāo)記系統(tǒng),其中神經(jīng)網(wǎng)絡(luò)執(zhí)行重復(fù)性工作,該技術(shù)涉及神經(jīng)網(wǎng)絡(luò)、雷達(dá)數(shù)據(jù)和人工審查的組合,而人類負(fù)責(zé)高級(jí)認(rèn)知問題和極端情況。特斯拉在全球銷售了數(shù)百萬輛配備攝像頭的汽車,在收集訓(xùn)練汽車計(jì)算機(jī)視覺深度學(xué)習(xí)模型所需的數(shù)據(jù)方面處于統(tǒng)治性地位。特斯拉自動(dòng)駕駛團(tuán)隊(duì)積累了1.5 PB的數(shù)據(jù),其中包括一百萬個(gè)10秒視頻和60億個(gè)帶有邊界框、深度和速度注釋的對(duì)象。
下面這段視頻展示了在遠(yuǎn)距離、灰塵、或者是雨雪天氣中物體都能被一致的檢測(cè)到的效果,就是圖中的那個(gè)粉色方塊。

特斯拉構(gòu)建的基于RNN的深度學(xué)習(xí)模型是一套非常復(fù)雜的多層神經(jīng)網(wǎng)絡(luò)系統(tǒng),它通過大概這么幾個(gè)步驟來實(shí)現(xiàn)了利用安裝在汽車周圍的八個(gè)攝像頭的自動(dòng)駕駛。首先是需要能夠處理攝像頭采集到的圖片,比如從中識(shí)別出汽車、行人、交通燈等。然后,來自多個(gè)攝像頭的圖像需要能夠被拼接在一起,形成這樣的向量空間Vector Space,就是現(xiàn)實(shí)世界的一個(gè)3D投影。這段錄像就展示了在縫合到一起的影像中檢測(cè)機(jī)動(dòng)車道的效果,里面的藍(lán)線就是不同攝像頭采集到的圖片的分界線。第三,有了這些處理好的數(shù)據(jù)之后,就要對(duì)它們進(jìn)行特征處理,這里除了視頻之外合理還要引入汽車的速度、加速度、所處的空間位置、時(shí)間等因素。最終,這些處理好的特征會(huì)被輸入基于RNN的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)里,RNN會(huì)及時(shí)跟蹤任何時(shí)間點(diǎn)發(fā)生的事情,并有能力選擇性地讀取和處理這些數(shù)據(jù),當(dāng)汽車在行駛時(shí),它只會(huì)高效的更新汽車附近和汽車能見范圍內(nèi)的部分。這里對(duì)于算法的細(xì)節(jié)省略了一萬句,有興趣的小伙伴可以在公眾號(hào)后臺(tái)留言獲取詳細(xì)的引用資料。


圖 1. 相機(jī)連接到 3D 向量空間(來自Tesla AI Day)

圖 2. 縫合到 3D 空間中的車道檢測(cè)(來自Tesla AI Day)

圖 3. 空間 RNN(來自Tesla AI Day)
簡(jiǎn)單總結(jié)回顧一下就是,首先進(jìn)行單個(gè)視頻的采集和處理,然后縫合多個(gè)攝像頭采集的圖像,之后進(jìn)行特征處理,最后通過RNN實(shí)現(xiàn)最終的處理。雖然特斯拉在這個(gè)領(lǐng)域取得了不小的突破,但當(dāng)前業(yè)界得到的深度學(xué)習(xí)模型依然有它的局限,比如說它很難進(jìn)行邏輯推理,也就是舉一反三,處理訓(xùn)練數(shù)據(jù)集中完全沒有出現(xiàn)過的新情況的能力不足。

這是一段由人工智能加工整理的內(nèi)容,怕學(xué)AI太難,那我們就先和AI玩起來。聊完特斯拉,下期內(nèi)容我們?cè)賮砹牧腟paceX。再見。

可交互的可視化機(jī)器學(xué)習(xí)開源教程 - https://github.com/ocademy-ai/machine-learning