論文解讀 | IROS 2021 | PTT:用于點(diǎn)云中3D單對象跟蹤的點(diǎn)-軌道-變壓器模塊
原創(chuàng) | 文 BFT機(jī)器人

01 背景
在自動駕駛、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域,3D單目標(biāo)跟蹤是一個(gè)重要的問題。
傳統(tǒng)的方法通常使用基于圖像或激光雷達(dá)數(shù)據(jù)的2D或3D物體檢測器來檢測和跟蹤目標(biāo)。然而,這些方法通常需要大量的計(jì)算資源,并且對于復(fù)雜場景中的小目標(biāo)或遮擋目標(biāo)表現(xiàn)不佳。3D單目標(biāo)跟蹤是指在三維空間中實(shí)現(xiàn)對一個(gè)移動物體的位置和姿態(tài)進(jìn)行跟蹤。然而,由于點(diǎn)云數(shù)據(jù)的高維度和噪聲等問題,3D單目標(biāo)跟蹤一直是一個(gè)具有挑戰(zhàn)性的問題。
為了改進(jìn)3D單目標(biāo)跟蹤的性能,本論文提出了一種新的轉(zhuǎn)換器模塊稱為PTT(Pointcloud Transformer)。
該模塊基于轉(zhuǎn)換器的自注意力機(jī)制和位置編碼機(jī)制,旨在提取和加權(quán)點(diǎn)云中的特征。轉(zhuǎn)換器是一種神經(jīng)網(wǎng)絡(luò)模型,最初用于自然語言處理任務(wù),如機(jī)器翻譯和語言模型。它具有強(qiáng)大的建模能力和上下文感知能力。在本論文中,這種轉(zhuǎn)換器模塊被應(yīng)用于點(diǎn)云數(shù)據(jù),以捕捉點(diǎn)云中點(diǎn)之間的關(guān)系并自適應(yīng)地獲取重要的特征信息。PTT模塊通過自注意力機(jī)制使每個(gè)點(diǎn)能夠根據(jù)其與其他點(diǎn)之間的關(guān)系自適應(yīng)地加權(quán)特征。同時(shí),引入位置編碼機(jī)制有助于模型理解點(diǎn)云數(shù)據(jù)的空間結(jié)構(gòu)。
02??創(chuàng)新點(diǎn)
1. 提出了一種名為PTT(Point-Track-Transformer)模塊的方法,用于3D單目標(biāo)跟蹤。該模塊利用點(diǎn)云特征進(jìn)行加權(quán),以便在跟蹤過程中更加關(guān)注深層次的目標(biāo)線索。
2. 提出了一種名為PTT-Net的3D單目標(biāo)跟蹤網(wǎng)絡(luò),其中嵌入了PTT模塊,并且可以進(jìn)行端到端訓(xùn)練。該方法是第一個(gè)將Transformer應(yīng)用于基于點(diǎn)云的3D目標(biāo)跟蹤任務(wù)中的工作。
3. 在實(shí)驗(yàn)中,作者證明了PTT-Net相對于其他現(xiàn)有方法具有更好的性能表現(xiàn),在成功率和精度方面都提高了約10%。同時(shí),PTT-Net還可以以40FPS的速度運(yùn)行。
03??算法具體介紹
首先,輸入的點(diǎn)云數(shù)據(jù)經(jīng)過PointNet++網(wǎng)絡(luò)進(jìn)行特征提取。
PointNet++是一種用于處理點(diǎn)云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它能夠?qū)c(diǎn)云數(shù)據(jù)進(jìn)行特征提取和處理。
接下來,提取的特征被傳遞到PTT模塊中。
PTT模塊利用Transformer的自注意力機(jī)制和位置編碼機(jī)制對點(diǎn)云特征進(jìn)行加權(quán)。通過自注意力機(jī)制,模塊可以根據(jù)點(diǎn)與點(diǎn)之間的關(guān)系來自適應(yīng)地捕捉重要的特征信息,輸出特征是輸入和殘差特征之和。位置編碼機(jī)制則提供了點(diǎn)云數(shù)據(jù)中點(diǎn)的位置信息,有助于模型理解點(diǎn)云數(shù)據(jù)的空間結(jié)構(gòu)。

圖1??PTT模塊的工作原理
加權(quán)后的特征被輸入到Proposal Generation Network(PGN)中,以生成候選框。PGN網(wǎng)絡(luò)負(fù)責(zé)生成潛在的目標(biāo)候選框,它可以根據(jù)加權(quán)特征的信息來提供可能包含目標(biāo)的區(qū)域。
在生成的候選框中,選擇與實(shí)際目標(biāo)最佳匹配的框,并使用IoU-Net網(wǎng)絡(luò)計(jì)算IoU(Intersection over Union)值。IoU-Net網(wǎng)絡(luò)用于度量候選框與真實(shí)目標(biāo)框之間的重疊程度,即IoU值。
最后,根據(jù)計(jì)算得到的IoU值和跟蹤歷史記錄,更新目標(biāo)的狀態(tài),并輸出跟蹤結(jié)果。
這可以包括目標(biāo)的位置、姿態(tài)等信息。整個(gè)PTT-Net算法可以進(jìn)行端到端訓(xùn)練,意味著整個(gè)網(wǎng)絡(luò)可以一起進(jìn)行訓(xùn)練,而不需要單獨(dú)訓(xùn)練每個(gè)組件。在訓(xùn)練過程中,使用基于隨機(jī)梯度下降(SGD)的優(yōu)化器來最小化定義的損失函數(shù),以優(yōu)化網(wǎng)絡(luò)的參數(shù)和性能。
PTT-Net算法通過結(jié)合PointNet++特征提取、PTT模塊的自注意力和位置編碼、PGN候選框生成和IoU-Net計(jì)算IoU值等組件,提供了一種用于3D單目標(biāo)跟蹤的端到端解決方案。

圖2 ?PTT 模塊架構(gòu)

圖3 ?PTT 網(wǎng)絡(luò)通道
04??實(shí)驗(yàn)
1. 數(shù)據(jù)集準(zhǔn)備:作者使用了KITTI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含了城市道路場景中的各種車輛、行人和自行車等物體的點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)。
2. 網(wǎng)絡(luò)構(gòu)建:作者將提出的PTT模塊嵌入到開源的最先進(jìn)方法P2B中,構(gòu)建了一個(gè)名為PTT-Net的新網(wǎng)絡(luò)。
3. 實(shí)驗(yàn)設(shè)置:作者在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與其他現(xiàn)有方法進(jìn)行了比較。為了適應(yīng)真實(shí)場景的需求,他們將搜索區(qū)域設(shè)置為以前一幀結(jié)果為中心。

表1 ?KITTI數(shù)據(jù)集中對于汽車類別的性能比較。
表1展示了在KITTI數(shù)據(jù)集上進(jìn)行車輛檢測任務(wù)時(shí),不同模型的性能比較。其中,模型的輸入數(shù)據(jù)包括RGB和LiDAR數(shù)據(jù),評價(jià)指標(biāo)包括3D檢測成功率、3D檢測精度和幀率等。表格中列出了6個(gè)模型的性能比較結(jié)果,包括AVOD-Tracking、F-Siamese、SC3D、P2B、3D-SiamRPN和PTT-Net。其中,PTT-Net在所有指標(biāo)上均取得了最好的性能表現(xiàn)。

表2 ?不同類別的廣泛比較
表2展示了在不同目標(biāo)類別上進(jìn)行目標(biāo)跟蹤任務(wù)時(shí),不同模型的性能比較。其中,“Ped”表示“Pedestrian”,即行人目標(biāo)。評價(jià)指標(biāo)包括成功率和精度等。表格中列出了4個(gè)模型的性能比較結(jié)果,包括P2B、3D-SiamRPN、PTT-Net和其他方法。其中,PTT-Net在所有指標(biāo)上均取得了最好的性能表現(xiàn),并且在非剛性物體(如行人)跟蹤方面取得了顯著的改進(jìn)。

圖4 ?
圖4展示了使用PTT模塊和不使用PTT模塊進(jìn)行分類和跟蹤的結(jié)果。其中,如果一個(gè)點(diǎn)的得分更高,那么它將受到更多的關(guān)注。與(b)相比,(a)中的PTT模塊更加關(guān)注前景點(diǎn)。與(d)相比,(c)中的PTT模塊在擁擠場景(有多個(gè)行人)中仍然可以穩(wěn)健地跟蹤目標(biāo)。

圖5
圖5展示了剛性和非剛性情況下的注意力得分示例,以及根據(jù)前景點(diǎn)數(shù)量將情況分為易于和困難的情況??梢悦黠@看出,PTT模塊可以引導(dǎo)跟蹤器關(guān)注前景點(diǎn),即使它們很少或與其他點(diǎn)非常相似。
05??總結(jié)
提出的基于Transformer網(wǎng)絡(luò)的3D單目標(biāo)跟蹤方法(PTT-Net)在KITTI數(shù)據(jù)集上取得了優(yōu)秀的性能表現(xiàn),比現(xiàn)有最先進(jìn)方法具有更高的準(zhǔn)確性和魯棒性。
該方法利用Transformer中的自注意力機(jī)制和位置編碼機(jī)制對點(diǎn)云特征進(jìn)行加權(quán),以便更好地關(guān)注目標(biāo)物體。同時(shí),該方法還可以進(jìn)行端到端訓(xùn)練,具有較高的實(shí)時(shí)性和可擴(kuò)展性。因此,本論文認(rèn)為基于Transformer網(wǎng)絡(luò)的3D單目標(biāo)跟蹤方法是一種有效且有前途的解決方案。
標(biāo)題:
PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds
更多精彩內(nèi)容請關(guān)注公眾號:BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時(shí)回應(yīng)。