北京大學開源SODFormer:使用事件和幀的Transformer流式目標檢測
#論文##開源# TPAMI |北京大學開源SODFormer:使用事件和幀的Transformer流式目標檢測 【SODFormer: Streaming Object Detection with Transformer Using Events and Frames】 代碼鏈接:GitHub - dianzl/SODFormer 文章鏈接:[2308.04047] SODFormer: Streaming Object Detection... DAVIS相機,流式異步事件和幀兩種互補的感知模式,逐漸被用于解決主要的目標檢測挑戰(zhàn)(例如,快速運動模糊和低照度)。然而,如何有效地利用豐富的時間線索并融合兩個異構的視覺流仍然是一項具有挑戰(zhàn)性的工作。為了解決這個問題,我們提出了一種新的基于Transformer的流式目標檢測器SODFormer,它首先集成事件和幀,以異步的方式連續(xù)檢測目標。在技術上,我們首先構建了一個超過1080.1 k人工標簽的大規(guī)模多模態(tài)神經形態(tài)目標檢測數(shù)據(jù)集(即PKU - DAVIS - SOD)。然后,我們設計了一個時空Transformer架構,通過一個端到端的序列預測問題來檢測目標,其中新穎的時序Transformer模塊利用來自兩個視覺流的豐富時間線索來提高檢測性能。 最后,提出了一種基于異步注意力的融合模塊,整合兩種異構感知模態(tài),從各端取長補短,可隨時查詢定位對象,突破了基于同步幀的融合策略輸出頻率受限的問題。結果表明,提出的SODFormer比四種最先進的方法和我們的八個基線有顯著的優(yōu)勢。我們還表明,即使在傳統(tǒng)的基于框架的相機失敗的情況下,我們的統(tǒng)一框架也能很好地工作,例如高速運動和低光照條件。