散文網(wǎng) » 科技 »學(xué)習(xí) » 論文解讀 | IROS 2021 | PTT：用于點(diǎn)云中3D單對象跟蹤的點(diǎn)-軌道-變壓器模塊

論文解讀 | IROS 2021 | PTT：用于點(diǎn)云中3D單對象跟蹤的點(diǎn)-軌道-變壓器模塊

2023-06-02 10:02 作者:BFT白芙堂機(jī)器人 0人讀過 | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

01 背景

在自動駕駛、機(jī)器人導(dǎo)航和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域，3D單目標(biāo)跟蹤是一個(gè)重要的問題。

傳統(tǒng)的方法通常使用基于圖像或激光雷達(dá)數(shù)據(jù)的2D或3D物體檢測器來檢測和跟蹤目標(biāo)。然而，這些方法通常需要大量的計(jì)算資源，并且對于復(fù)雜場景中的小目標(biāo)或遮擋目標(biāo)表現(xiàn)不佳。3D單目標(biāo)跟蹤是指在三維空間中實(shí)現(xiàn)對一個(gè)移動物體的位置和姿態(tài)進(jìn)行跟蹤。然而，由于點(diǎn)云數(shù)據(jù)的高維度和噪聲等問題，3D單目標(biāo)跟蹤一直是一個(gè)具有挑戰(zhàn)性的問題。

為了改進(jìn)3D單目標(biāo)跟蹤的性能，本論文提出了一種新的轉(zhuǎn)換器模塊稱為PTT（Pointcloud Transformer）。

該模塊基于轉(zhuǎn)換器的自注意力機(jī)制和位置編碼機(jī)制，旨在提取和加權(quán)點(diǎn)云中的特征。轉(zhuǎn)換器是一種神經(jīng)網(wǎng)絡(luò)模型，最初用于自然語言處理任務(wù)，如機(jī)器翻譯和語言模型。它具有強(qiáng)大的建模能力和上下文感知能力。在本論文中，這種轉(zhuǎn)換器模塊被應(yīng)用于點(diǎn)云數(shù)據(jù)，以捕捉點(diǎn)云中點(diǎn)之間的關(guān)系并自適應(yīng)地獲取重要的特征信息。PTT模塊通過自注意力機(jī)制使每個(gè)點(diǎn)能夠根據(jù)其與其他點(diǎn)之間的關(guān)系自適應(yīng)地加權(quán)特征。同時(shí)，引入位置編碼機(jī)制有助于模型理解點(diǎn)云數(shù)據(jù)的空間結(jié)構(gòu)。

02??創(chuàng)新點(diǎn)

1. 提出了一種名為PTT（Point-Track-Transformer）模塊的方法，用于3D單目標(biāo)跟蹤。該模塊利用點(diǎn)云特征進(jìn)行加權(quán)，以便在跟蹤過程中更加關(guān)注深層次的目標(biāo)線索。

2. 提出了一種名為PTT-Net的3D單目標(biāo)跟蹤網(wǎng)絡(luò)，其中嵌入了PTT模塊，并且可以進(jìn)行端到端訓(xùn)練。該方法是第一個(gè)將Transformer應(yīng)用于基于點(diǎn)云的3D目標(biāo)跟蹤任務(wù)中的工作。

3. 在實(shí)驗(yàn)中，作者證明了PTT-Net相對于其他現(xiàn)有方法具有更好的性能表現(xiàn)，在成功率和精度方面都提高了約10％。同時(shí)，PTT-Net還可以以40FPS的速度運(yùn)行。

03??算法具體介紹

首先，輸入的點(diǎn)云數(shù)據(jù)經(jīng)過PointNet++網(wǎng)絡(luò)進(jìn)行特征提取。

PointNet++是一種用于處理點(diǎn)云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，它能夠?qū)c(diǎn)云數(shù)據(jù)進(jìn)行特征提取和處理。

接下來，提取的特征被傳遞到PTT模塊中。

PTT模塊利用Transformer的自注意力機(jī)制和位置編碼機(jī)制對點(diǎn)云特征進(jìn)行加權(quán)。通過自注意力機(jī)制，模塊可以根據(jù)點(diǎn)與點(diǎn)之間的關(guān)系來自適應(yīng)地捕捉重要的特征信息，輸出特征是輸入和殘差特征之和。位置編碼機(jī)制則提供了點(diǎn)云數(shù)據(jù)中點(diǎn)的位置信息，有助于模型理解點(diǎn)云數(shù)據(jù)的空間結(jié)構(gòu)。

圖1??PTT模塊的工作原理

加權(quán)后的特征被輸入到Proposal Generation Network（PGN）中，以生成候選框。PGN網(wǎng)絡(luò)負(fù)責(zé)生成潛在的目標(biāo)候選框，它可以根據(jù)加權(quán)特征的信息來提供可能包含目標(biāo)的區(qū)域。

在生成的候選框中，選擇與實(shí)際目標(biāo)最佳匹配的框，并使用IoU-Net網(wǎng)絡(luò)計(jì)算IoU（Intersection over Union）值。IoU-Net網(wǎng)絡(luò)用于度量候選框與真實(shí)目標(biāo)框之間的重疊程度，即IoU值。

最后，根據(jù)計(jì)算得到的IoU值和跟蹤歷史記錄，更新目標(biāo)的狀態(tài)，并輸出跟蹤結(jié)果。

這可以包括目標(biāo)的位置、姿態(tài)等信息。整個(gè)PTT-Net算法可以進(jìn)行端到端訓(xùn)練，意味著整個(gè)網(wǎng)絡(luò)可以一起進(jìn)行訓(xùn)練，而不需要單獨(dú)訓(xùn)練每個(gè)組件。在訓(xùn)練過程中，使用基于隨機(jī)梯度下降（SGD）的優(yōu)化器來最小化定義的損失函數(shù)，以優(yōu)化網(wǎng)絡(luò)的參數(shù)和性能。

PTT-Net算法通過結(jié)合PointNet++特征提取、PTT模塊的自注意力和位置編碼、PGN候選框生成和IoU-Net計(jì)算IoU值等組件，提供了一種用于3D單目標(biāo)跟蹤的端到端解決方案。

圖2 ?PTT 模塊架構(gòu)

圖3 ?PTT 網(wǎng)絡(luò)通道

04??實(shí)驗(yàn)

1. 數(shù)據(jù)集準(zhǔn)備：作者使用了KITTI數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)集包含了城市道路場景中的各種車輛、行人和自行車等物體的點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)。

2. 網(wǎng)絡(luò)構(gòu)建：作者將提出的PTT模塊嵌入到開源的最先進(jìn)方法P2B中，構(gòu)建了一個(gè)名為PTT-Net的新網(wǎng)絡(luò)。

3. 實(shí)驗(yàn)設(shè)置：作者在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，并與其他現(xiàn)有方法進(jìn)行了比較。為了適應(yīng)真實(shí)場景的需求，他們將搜索區(qū)域設(shè)置為以前一幀結(jié)果為中心。

表1 ?KITTI數(shù)據(jù)集中對于汽車類別的性能比較。

表1展示了在KITTI數(shù)據(jù)集上進(jìn)行車輛檢測任務(wù)時(shí)，不同模型的性能比較。其中，模型的輸入數(shù)據(jù)包括RGB和LiDAR數(shù)據(jù)，評價(jià)指標(biāo)包括3D檢測成功率、3D檢測精度和幀率等。表格中列出了6個(gè)模型的性能比較結(jié)果，包括AVOD-Tracking、F-Siamese、SC3D、P2B、3D-SiamRPN和PTT-Net。其中，PTT-Net在所有指標(biāo)上均取得了最好的性能表現(xiàn)。

表2 ?不同類別的廣泛比較

表2展示了在不同目標(biāo)類別上進(jìn)行目標(biāo)跟蹤任務(wù)時(shí)，不同模型的性能比較。其中，“Ped”表示“Pedestrian”，即行人目標(biāo)。評價(jià)指標(biāo)包括成功率和精度等。表格中列出了4個(gè)模型的性能比較結(jié)果，包括P2B、3D-SiamRPN、PTT-Net和其他方法。其中，PTT-Net在所有指標(biāo)上均取得了最好的性能表現(xiàn)，并且在非剛性物體（如行人）跟蹤方面取得了顯著的改進(jìn)。

圖4 ?

圖4展示了使用PTT模塊和不使用PTT模塊進(jìn)行分類和跟蹤的結(jié)果。其中，如果一個(gè)點(diǎn)的得分更高，那么它將受到更多的關(guān)注。與(b)相比，(a)中的PTT模塊更加關(guān)注前景點(diǎn)。與(d)相比，(c)中的PTT模塊在擁擠場景（有多個(gè)行人）中仍然可以穩(wěn)健地跟蹤目標(biāo)。

圖5

圖5展示了剛性和非剛性情況下的注意力得分示例，以及根據(jù)前景點(diǎn)數(shù)量將情況分為易于和困難的情況?？梢悦黠@看出，PTT模塊可以引導(dǎo)跟蹤器關(guān)注前景點(diǎn)，即使它們很少或與其他點(diǎn)非常相似。

05??總結(jié)

提出的基于Transformer網(wǎng)絡(luò)的3D單目標(biāo)跟蹤方法（PTT-Net）在KITTI數(shù)據(jù)集上取得了優(yōu)秀的性能表現(xiàn)，比現(xiàn)有最先進(jìn)方法具有更高的準(zhǔn)確性和魯棒性。

該方法利用Transformer中的自注意力機(jī)制和位置編碼機(jī)制對點(diǎn)云特征進(jìn)行加權(quán)，以便更好地關(guān)注目標(biāo)物體。同時(shí)，該方法還可以進(jìn)行端到端訓(xùn)練，具有較高的實(shí)時(shí)性和可擴(kuò)展性。因此，本論文認(rèn)為基于Transformer網(wǎng)絡(luò)的3D單目標(biāo)跟蹤方法是一種有效且有前途的解決方案。

標(biāo)題：

PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds

更多精彩內(nèi)容請關(guān)注公眾號：BFT機(jī)器人

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問，請與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：