一文讀懂自動(dòng)駕駛在人車(chē)交互下的行人軌跡預(yù)測(cè)方法
引言
行人軌跡預(yù)測(cè)方法
目前廣泛應(yīng)用在行人軌跡預(yù)測(cè)領(lǐng)域的方法主要包括基于LSTM網(wǎng)絡(luò)、GCN網(wǎng)絡(luò)和GAN網(wǎng)絡(luò)的軌跡預(yù)測(cè)方法,這些網(wǎng)絡(luò)在訓(xùn)練完成后對(duì)同類(lèi)型輸入具有很好的適用性,擁有較高的軌跡預(yù)測(cè)精度。下面對(duì)應(yīng)用以上網(wǎng)絡(luò)模型的方法分別展開(kāi)介紹。
2.1 基于LSTM的行人軌跡預(yù)測(cè)方法
為了解決RNN在復(fù)雜時(shí)序的預(yù)測(cè)問(wèn)題,Hochreiter等人提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM),它是一種特殊的RNN結(jié)構(gòu),能輕松地學(xué)習(xí)到長(zhǎng)期依賴(lài)的信息。LSTM通過(guò)增加遺忘網(wǎng)絡(luò)層來(lái)丟棄導(dǎo)致錯(cuò)誤預(yù)測(cè)結(jié)果的信息,在解決梯度消失問(wèn)題的同時(shí)提升網(wǎng)絡(luò)預(yù)測(cè)的精度。
為了將LSTM應(yīng)用到行人軌跡預(yù)測(cè)的方法中,Alahi等[2]提出了一種Social LSTM網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。Social LSTM方法解決了以往工作中行人軌跡預(yù)測(cè)遇到的兩個(gè)難點(diǎn):(1)現(xiàn)有的模型不能通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)展示交互關(guān)系,需要手工構(gòu)造函數(shù)來(lái)表現(xiàn)出來(lái),導(dǎo)致模型只能捕捉簡(jiǎn)單的交互情景。(2)現(xiàn)有的軌跡預(yù)測(cè)工作中所針對(duì)的任務(wù)通常是距離很相近的情景,而沒(méi)有考慮更遠(yuǎn)距離可能發(fā)生的交互問(wèn)題。針對(duì)這兩個(gè)難點(diǎn),論文提出了一種Social LSTM模型,通過(guò)為場(chǎng)景中的每個(gè)行人配備一個(gè)獨(dú)立的LSTM網(wǎng)絡(luò),用于預(yù)測(cè)其運(yùn)動(dòng)軌跡;通過(guò)社交池(s-pooling)層相互連接來(lái)計(jì)算周?chē)渌腥私换ギa(chǎn)生的影響。Social LSTM填補(bǔ)早期工作的空白,實(shí)現(xiàn)了很好的行人軌跡預(yù)測(cè)效果。

圖1 social lstm模型結(jié)構(gòu)
Zhu等[3]提出了一種StarNet星型拓?fù)渚W(wǎng)絡(luò),如圖2所示。通過(guò)對(duì)行人之間的全局交互建模實(shí)現(xiàn)高效的行人軌跡預(yù)測(cè)。該模型中Hub Network模塊是基于LSTM的全局時(shí)序交互計(jì)算網(wǎng)絡(luò),用于獲取所有行人的觀察軌跡。Host Network是基于LSTM的軌跡預(yù)測(cè)網(wǎng)絡(luò),每個(gè)Host Network對(duì)應(yīng)一個(gè)行人,通過(guò)參考描述信息對(duì)未來(lái)軌跡進(jìn)行預(yù)測(cè)。在ETH和UCY數(shù)據(jù)集上,該網(wǎng)絡(luò)在80%的場(chǎng)景下都優(yōu)于其他算法,且實(shí)時(shí)性高。
由以上的分析可知,基于LSTM的神經(jīng)網(wǎng)絡(luò)模型主要解決行人本身對(duì)軌跡的影響問(wèn)題,再根據(jù)社會(huì)交互模型的結(jié)論去修正目標(biāo)預(yù)測(cè)軌跡,進(jìn)而得出更加準(zhǔn)確的預(yù)測(cè)結(jié)果。

圖2 StarNet模型結(jié)構(gòu)
2.2 基于GCN的行人軌跡預(yù)測(cè)方法
圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)是一種能對(duì)圖數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的方法,通過(guò)使用圖的邊和節(jié)點(diǎn)數(shù)據(jù)作為輸入進(jìn)行學(xué)習(xí)訓(xùn)練。在行人軌跡預(yù)測(cè)領(lǐng)域,GCN通過(guò)加入時(shí)空數(shù)據(jù)進(jìn)行行人軌跡預(yù)測(cè),因而能夠理解行人行為從而加快社交互動(dòng)的建模進(jìn)度,所以GCN在軌跡預(yù)測(cè)方向有很大的應(yīng)用前景。

圖3 GCN網(wǎng)絡(luò)架構(gòu)
Bae等[5]研究了基于社會(huì)關(guān)系的行人軌跡預(yù)測(cè),針對(duì)現(xiàn)有軌跡預(yù)測(cè)方法過(guò)多估計(jì)行人個(gè)體的社會(huì)力量,無(wú)法解決過(guò)度避碰的問(wèn)題,提出了一種用于社會(huì)糾纏行人軌跡預(yù)測(cè)的解耦多關(guān)系圖卷積網(wǎng)絡(luò)(DMRGCN),模型框架如圖4所示。該模型中通過(guò)解耦的多尺度聚合區(qū)分相關(guān)的行人,使用多關(guān)系的GCN提取場(chǎng)景中復(fù)雜的社會(huì)交互行為,模型中加入全局的時(shí)間聚合函數(shù)用于補(bǔ)償因過(guò)度避撞而累積的誤差。實(shí)驗(yàn)結(jié)果在平均位移誤差(ADE)和最終位移誤差(FDE)上分別超過(guò)了最先進(jìn)的方法,實(shí)現(xiàn)了準(zhǔn)確的預(yù)測(cè)效果。
由上述論文的分析可知,GCN網(wǎng)絡(luò)主要是將行人社交模型加入到預(yù)測(cè)模型之中,對(duì)行人歷史軌跡進(jìn)性優(yōu)化處理,進(jìn)而提升預(yù)測(cè)速度和預(yù)測(cè)精度,從而實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)行人軌跡的目的。其缺點(diǎn)是不能夠單獨(dú)使用完成軌跡預(yù)測(cè)任務(wù)。

圖4 DMRGCN網(wǎng)絡(luò)架構(gòu)
2.3 基于GAN的行人軌跡預(yù)測(cè)方法
生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)是一種無(wú)監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)模型,主要結(jié)構(gòu)由兩部分組成:生成器,用于學(xué)習(xí)數(shù)據(jù)的分布并生成相似的數(shù)據(jù)。鑒別器,計(jì)算來(lái)自真實(shí)數(shù)據(jù)的可能性,并將其分類(lèi)為真實(shí)或虛假。GAN通過(guò)生成器和鑒別器的相互博弈來(lái)達(dá)到使網(wǎng)絡(luò)相互學(xué)習(xí)的目的。在行人軌跡預(yù)測(cè)中加入GAN網(wǎng)絡(luò),可以解決過(guò)去僅能預(yù)測(cè)一條“最優(yōu)”軌跡的缺陷,此網(wǎng)絡(luò)能夠預(yù)測(cè)多條可行的軌跡并通過(guò)博弈的思想進(jìn)一步優(yōu)化預(yù)測(cè)精度。
生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)是一種無(wú)監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)模型,主要結(jié)構(gòu)由兩部分組成:生成器,用于學(xué)習(xí)數(shù)據(jù)的分布并生成相似的數(shù)據(jù)。鑒別器,計(jì)算來(lái)自真實(shí)數(shù)據(jù)的可能性,并將其分類(lèi)為真實(shí)或虛假。GAN通過(guò)生成器和鑒別器的相互博弈來(lái)達(dá)到使網(wǎng)絡(luò)相互學(xué)習(xí)的目的。在行人軌跡預(yù)測(cè)中加入GAN網(wǎng)絡(luò),可以解決過(guò)去僅能預(yù)測(cè)一條“最優(yōu)”軌跡的缺陷,此網(wǎng)絡(luò)能夠預(yù)測(cè)多條可行的軌跡并通過(guò)博弈的思想進(jìn)一步優(yōu)化預(yù)測(cè)精度。
Gupta等[6]首次將GAN的對(duì)抗思想引入行人運(yùn)動(dòng)軌跡預(yù)測(cè)的任務(wù)中,提出一種Social GAN的軌跡預(yù)測(cè)方法。該網(wǎng)絡(luò)將LSTM用作“運(yùn)動(dòng)編碼器模塊”處理時(shí)間信息,并采用“位置編碼器模塊”對(duì)空間交互進(jìn)行建模,結(jié)合來(lái)自序列預(yù)測(cè)和生成對(duì)抗網(wǎng)絡(luò)的工具來(lái)解決行人軌跡預(yù)測(cè)問(wèn)題。模型結(jié)構(gòu)如圖5所示。

圖5 Social GAN網(wǎng)絡(luò)架構(gòu)
由于GAN網(wǎng)絡(luò)易受模式崩潰和模式下降的影響,Amirian等[7]提出了Social Way網(wǎng)絡(luò)模型,通過(guò)加入info-GAN來(lái)改進(jìn)多模式軌跡預(yù)測(cè),避免GAN出現(xiàn)的問(wèn)題,模型框架如圖6所示。該模型是繼Social LSTM、Social GAN模型之后的進(jìn)一步提升,在理想的監(jiān)控俯瞰數(shù)據(jù)庫(kù)ETH、UCY上進(jìn)行數(shù)據(jù)的預(yù)測(cè),通過(guò)引入注意力機(jī)制使模型自主分配對(duì)交互信息的關(guān)注,并且模型結(jié)構(gòu)上舍棄了L2代價(jià)函數(shù),引入基于互信息的Information Loss,使得網(wǎng)絡(luò)在多模態(tài)行人軌跡預(yù)測(cè)上有著良好的訓(xùn)練效果。

圖6 Social Way模型框架
GAN網(wǎng)絡(luò)能夠在行人軌跡預(yù)測(cè)方面實(shí)現(xiàn)較好的預(yù)測(cè)效果,但也會(huì)存在一些缺點(diǎn)影響其網(wǎng)絡(luò)性能。比如,(1)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,容易出現(xiàn)梯度消失、模式崩潰等問(wèn)題,進(jìn)而造成生成結(jié)果較差。(2)GAN訓(xùn)練時(shí)需要達(dá)到納什均衡才能夠擁有良好的預(yù)測(cè)精度,若不滿足則會(huì)導(dǎo)致網(wǎng)絡(luò)不收斂。(3)由于網(wǎng)絡(luò)訓(xùn)練過(guò)程中沒(méi)有使用損失函數(shù),造成我們對(duì)當(dāng)前的訓(xùn)練效果處于一個(gè)未知的狀態(tài),如果網(wǎng)絡(luò)訓(xùn)練過(guò)程中出現(xiàn)生成器退化現(xiàn)象,則網(wǎng)絡(luò)將無(wú)法繼續(xù)訓(xùn)練。
行人軌跡預(yù)測(cè)難點(diǎn)
目前最先進(jìn)的論文方法中,對(duì)行人軌跡的預(yù)測(cè)會(huì)出現(xiàn)預(yù)測(cè)結(jié)果不準(zhǔn)確的現(xiàn)象。結(jié)合論文進(jìn)行分析可知,造成行人軌跡預(yù)測(cè)不準(zhǔn)確的難點(diǎn)主要包括以下兩個(gè)方面:
(1)行人運(yùn)動(dòng)方式靈活多變,預(yù)測(cè)其軌跡難度較大。在現(xiàn)實(shí)中,相對(duì)于自行車(chē)、汽車(chē)等運(yùn)動(dòng)學(xué)模型,行人運(yùn)動(dòng)更加靈活,例如正在加速奔跑的行人可能會(huì)突然停止下來(lái)或者突然掉頭再跑等動(dòng)作,因此很難對(duì)行人建立合理的動(dòng)力學(xué)模型,進(jìn)而增加了行人軌跡預(yù)測(cè)的難度。(2)行人之間的交互關(guān)系復(fù)雜且抽象,很難精確的進(jìn)行建模。行人軌跡往往不僅僅由行人本身的意圖決定,很多時(shí)候也受周?chē)腥说挠绊?。在?shí)際場(chǎng)景中,某一行人未來(lái)的運(yùn)動(dòng)不僅受自己意圖支配,同樣也受周?chē)腥说挠绊憽_@種交互關(guān)系在算法中往往很難精確地建模出來(lái)。目前,大部分算法都是用相對(duì)空間關(guān)系來(lái)進(jìn)行建模,例如相對(duì)位置、相對(duì)朝向、相對(duì)速度大小等。
常規(guī)算法模型的實(shí)現(xiàn)是找到一個(gè)輸入到輸出的函數(shù)映射,對(duì)于軌跡預(yù)測(cè)的模型來(lái)說(shuō),其對(duì)應(yīng)著一個(gè)序列到另一個(gè)序列的映射,常規(guī)的模型或訓(xùn)練方式容易使模型預(yù)測(cè)結(jié)果陷入平均狀態(tài)(預(yù)測(cè)結(jié)果傾向于預(yù)測(cè)一種折中的軌跡),顯然使用常規(guī)的訓(xùn)練模型無(wú)法很好地對(duì)行人軌跡進(jìn)行有效的預(yù)測(cè)。
總結(jié)與展望
本文對(duì)近年來(lái)行人軌跡預(yù)測(cè)領(lǐng)域部分最先進(jìn)的方法進(jìn)行了分類(lèi),并對(duì)不同的方法的優(yōu)缺點(diǎn)進(jìn)行了總結(jié)。結(jié)合軌跡預(yù)測(cè)的發(fā)展趨勢(shì)可以看出,基于神經(jīng)網(wǎng)絡(luò)的行人軌跡預(yù)測(cè)算法能夠?qū)崿F(xiàn)較好的預(yù)測(cè)效果,也是論文中使用較為普遍的方法。而在實(shí)際場(chǎng)景的應(yīng)用過(guò)程中,需要同時(shí)保證軌跡預(yù)測(cè)算法運(yùn)行的高效性及識(shí)別的高精度性,在當(dāng)前領(lǐng)域內(nèi)軌跡預(yù)測(cè)技術(shù)在實(shí)際場(chǎng)景應(yīng)用中還存在部分難點(diǎn)需要去克服。
軌跡預(yù)測(cè)技術(shù)在最近幾年發(fā)展速度較快,伴隨著傳感器技術(shù)的不斷發(fā)展,達(dá)到一個(gè)更加精準(zhǔn)的行人軌跡預(yù)測(cè)更加易于實(shí)現(xiàn)。未來(lái)的發(fā)展中,相信軌跡預(yù)測(cè)技術(shù)走進(jìn)實(shí)際生活的距離不會(huì)太遙遠(yuǎn)。更多精彩內(nèi)容,請(qǐng)關(guān)注智車(chē)科技公眾號(hào)!
參考文獻(xiàn):[1] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.[2] Alahi A, Goel K, Ramanathan V, et al. Social lstm: Human trajectory prediction in crowded spaces[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 961-971.[3] Zhu Y, Qian D, Ren D, et al. Starnet: Pedestrian trajectory prediction using deep neural network in star topology[C]//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019: 8075-8080.[4] Shi L, Wang L, Long C, et al. SGCN: Sparse graph convolution network for pedestrian trajectory prediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8994-9003.[5] Bae I, Jeon H G. Disentangled multi-relational graph convolutional network for pedestrian trajectory prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(2): 911-919.[6] Gupta A, Johnson J, Fei-Fei L, et al. Social gan: Socially acceptable trajectories with generative adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 2255-2264.[7] Amirian J, Hayet J B, Pettré J. Social ways: Learning multi-modal distributions of pedestrian trajectories with gans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019: 0-0.
- End -
標(biāo)簽: