麻省理工等發(fā)布: 追隨任何物體:實(shí)時(shí)開(kāi)放集檢測(cè)、跟蹤和跟隨
#論文##開(kāi)源# arxiv速遞 | 麻省理工CSAIL與哈佛SEAS實(shí)驗(yàn)室聯(lián)合發(fā)布Follow Anything: 追隨任何物體:實(shí)時(shí)開(kāi)放集檢測(cè)、跟蹤和跟隨 【Follow Anything: Open-set detection, tracking, and following in real-time】 開(kāi)源項(xiàng)目: GitHub - alaamaalouf/FollowAnything 演示視頻:?https://www.youtube.com/watch?v=6Mgt3EPytrw 文章鏈接:http://arxiv.org/abs/2308.05737 從工業(yè)自動(dòng)化到物流和倉(cāng)儲(chǔ),再到醫(yī)療保健和安全,跟蹤和跟蹤感興趣的對(duì)象對(duì)于多個(gè)機(jī)器人用例至關(guān)重要。在本文中,我們提出了一個(gè)機(jī)器人系統(tǒng)來(lái)實(shí)時(shí)檢測(cè)、跟蹤和跟隨任何物體。我們的方法被稱(chēng)為"追隨任何物體" ( FAn ),是一個(gè)開(kāi)放的詞匯和多模態(tài)模型- -它不限于在訓(xùn)練時(shí)看到的概念,可以通過(guò)文本、圖像或點(diǎn)擊查詢(xún)應(yīng)用于推理時(shí)的新類(lèi)別。 利用大規(guī)模預(yù)訓(xùn)練模型(基礎(chǔ)模型)中豐富的視覺(jué)描述符,F(xiàn)An可以通過(guò)將多模態(tài)查詢(xún)(文字、圖像、點(diǎn)擊)與輸入圖像序列進(jìn)行匹配來(lái)檢測(cè)和分割物體。這些被檢測(cè)和分割的目標(biāo)在圖像幀之間被跟蹤,同時(shí)考慮遮擋和物體重新出現(xiàn)的情況。我們?cè)谝粋€(gè)真實(shí)的機(jī)器人系統(tǒng)(一種微型飛行器)上演示了FAn,并報(bào)告了其在實(shí)時(shí)控制回路中無(wú)縫跟蹤感興趣對(duì)象的能力。FAn可以部署在搭載輕量級(jí)( 6 ~ 8 GB)顯卡的筆記本電腦上,實(shí)現(xiàn)每秒6 ~ 20幀的吞吐量。