微軟CVPR 2023論文匯總:涵蓋AR/VR,3D重建、人工智能等
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
微軟共有40份論文在CVPR 2023進(jìn)行了發(fā)表
(映維網(wǎng)Nweon?2023年06月29日)計(jì)算機(jī)視覺(jué)是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,是人工智能領(lǐng)域的一個(gè)重要組成,并且在AR/VR,3D重建,工業(yè)檢測(cè),無(wú)人機(jī)和自動(dòng)駕駛汽車等領(lǐng)域具有重要應(yīng)用。
作為重要的計(jì)算機(jī)視覺(jué)和模式識(shí)別大會(huì),每年的CVPR都將吸引學(xué)界的廣泛參與,而來(lái)自世界各地的計(jì)算機(jī)視覺(jué)研究者和工程師都會(huì)在這里分享了相關(guān)研究的最新進(jìn)展。對(duì)于今年在加拿大溫哥華舉行的CVPR 2023,微軟共發(fā)表了40份論文。
下面是具體的整理,包括論文鏈接和摘要介紹(點(diǎn)擊閱讀原文,在網(wǎng)站文章中小標(biāo)題即可訪問(wèn)論文的PDF完整版本或項(xiàng)目頁(yè)面):

1.?Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks
語(yǔ)言、視覺(jué)和多模式預(yù)訓(xùn)練的大一統(tǒng)正在出現(xiàn)。在這項(xiàng)研究中,團(tuán)隊(duì)介紹了一個(gè)通用的多模態(tài)基礎(chǔ)模型BEiT-3,而它在視覺(jué)和視覺(jué)語(yǔ)言任務(wù)方面都取得了優(yōu)異的transfer表現(xiàn)。具體來(lái)說(shuō),我們從骨干架構(gòu)、預(yù)訓(xùn)練任務(wù)和模型擴(kuò)展三個(gè)方面推進(jìn)了大一統(tǒng)。團(tuán)隊(duì)使用Multiway Transformers進(jìn)行通用建模,其中模塊化架構(gòu)實(shí)現(xiàn)了深度融合和模態(tài)特定編碼?;诠蚕淼闹鞲?,團(tuán)隊(duì)以統(tǒng)一的方式對(duì)圖像(英語(yǔ))、文本(英語(yǔ))和圖像-文本對(duì)(“平行句”)進(jìn)行掩碼的“語(yǔ)言”建模。實(shí)驗(yàn)結(jié)果表明,BEiT-3在對(duì)象檢測(cè)(COCO)、語(yǔ)義分割(ADE20K)、圖像分類(ImageNet)、視覺(jué)推理(NLVR2)、視覺(jué)問(wèn)答(VQAV2)、圖像字幕(COCO)等任務(wù)都取得的取得了SOTA表現(xiàn)。
2.?On Data Scaling in Masked Image Modeling
自監(jiān)督學(xué)習(xí)的一個(gè)重要目標(biāo)是令模型預(yù)訓(xùn)練能夠從幾乎無(wú)限的數(shù)據(jù)中受益。但業(yè)界質(zhì)疑最近流行的一種方法MIM無(wú)法從更大的數(shù)據(jù)中受益。在這項(xiàng)研究中,團(tuán)隊(duì)通過(guò)廣泛的實(shí)驗(yàn)打破了這種誤解,數(shù)據(jù)規(guī)模從ImageNet-1K的10%到完整的ImageNet-22K,模型大小從4900萬(wàn)到10億,訓(xùn)練長(zhǎng)度從125K迭代到500K迭代。研究表明:(i)掩碼圖像建模同樣需要更大的數(shù)據(jù)。團(tuán)隊(duì)觀察到,非常大的模型與相對(duì)較小的數(shù)據(jù)擬合過(guò)度;(ii) 訓(xùn)練時(shí)間長(zhǎng)短十分重要。用亞麻圖像建模訓(xùn)練的大型模型可以受益于更長(zhǎng)訓(xùn)練的更多數(shù)據(jù);(iii)預(yù)訓(xùn)練中的驗(yàn)證損失是衡量模型性能的良好指標(biāo)。這一觀察結(jié)果使得團(tuán)隊(duì)能夠提前預(yù)評(píng)估預(yù)先訓(xùn)練的模型,而不必對(duì)下游任務(wù)進(jìn)行昂貴的試錯(cuò)評(píng)估。
3.?Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion
本文提出了一種3D生成式模型。其中,它使用擴(kuò)散模型自動(dòng)生成以神經(jīng)輻射場(chǎng)表示的3D數(shù)字化身。生成這樣的化身的一個(gè)重大挑戰(zhàn)是,3D中的存儲(chǔ)器和處理成本對(duì)于生成高質(zhì)量化身所需的豐富細(xì)節(jié)令人望而卻步。為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)提出了roll-out diffusion network(Rodin),它將神經(jīng)輻射場(chǎng)表示為多個(gè)2D特征圖,并將其展開(kāi)到單個(gè)2D特征平面中,然后在平面內(nèi)執(zhí)行3D感知擴(kuò)散。Rodin模型帶來(lái)了急需的計(jì)算效率,同時(shí)通過(guò)使用3D感知卷積來(lái)保持3D中擴(kuò)散的完整性。團(tuán)隊(duì)同時(shí)使用latent conditioning反射來(lái)協(xié)調(diào)特征生成,以實(shí)現(xiàn)全局一致性,從而產(chǎn)生高保真化身,并實(shí)現(xiàn)基于文本的語(yǔ)義編輯。最后,團(tuán)隊(duì)使用hierarchical synthesis來(lái)進(jìn)一步增強(qiáng)細(xì)節(jié)。與通過(guò)現(xiàn)有生成技術(shù)生成的3D化身相比,所述方法可以生成具有逼真發(fā)型和胡須等面部毛發(fā)的高度詳細(xì)化身。團(tuán)隊(duì)同時(shí)演示了從圖像或文本生成3D化身以及文本引導(dǎo)的可編輯性。
4.?3D Human Mesh Estimation from Virtual Markers
受體三維三維姿態(tài)估計(jì)成功的啟發(fā),最近許多人類網(wǎng)格估計(jì)器提出將三維骨架估計(jì)為中間表示,通過(guò)利用網(wǎng)格拓?fù)鋵?duì)密集的三維網(wǎng)格進(jìn)行回歸。然而,在提取骨骼時(shí)會(huì)丟失體型信息,導(dǎo)致性能平平。先進(jìn)的動(dòng)捕系統(tǒng)通過(guò)在體表放置密集的物理標(biāo)記來(lái)解決這個(gè)問(wèn)題,從而可以從非剛性運(yùn)動(dòng)中提取逼真的網(wǎng)格。但是,它們不能應(yīng)用于沒(méi)有標(biāo)記的wild圖像。在這項(xiàng)研究中,團(tuán)隊(duì)提出了一種稱為虛擬標(biāo)記的中間表示,它以生成方式并基于大規(guī)模動(dòng)捕數(shù)據(jù)學(xué)習(xí)體表的64個(gè)landmark關(guān)鍵點(diǎn),模仿物理標(biāo)記的效果。虛擬標(biāo)記可以從wild圖像中準(zhǔn)確地檢測(cè)到,并且可以通過(guò)簡(jiǎn)單的插值重建具有真實(shí)形狀的完整網(wǎng)格。所述方法在三個(gè)數(shù)據(jù)集上都優(yōu)于最先進(jìn)的方法。特別是,在具有不同體型的SURREAL數(shù)據(jù)集,它以顯著的優(yōu)勢(shì)超過(guò)了現(xiàn)有的方法。
5.?LIMAP – Global Mapper 3D Line Mapping Revisited
與稀疏關(guān)鍵點(diǎn)相比,少數(shù)線段可以簡(jiǎn)明地對(duì)高級(jí)場(chǎng)景布局進(jìn)行編碼,因?yàn)樗鼈兺ǔC枥L主要的結(jié)構(gòu)元素。除了提供強(qiáng)烈的幾何線索外,它們同時(shí)在城市景觀和室內(nèi)場(chǎng)景中無(wú)處不在。盡管有明顯的優(yōu)勢(shì),但目前基于線的重建方法遠(yuǎn)遠(yuǎn)落后于基于點(diǎn)的重建方法。在本文中,團(tuán)隊(duì)旨在通過(guò)引入LIMAP來(lái)縮小這一差距。LIMAP是一個(gè)用于3D線圖繪制的庫(kù),可以從多視圖圖像中穩(wěn)健有效地創(chuàng)建3D線圖。這主要是通過(guò)重新審視線三角測(cè)量的退化問(wèn)題,以及利用線重合、平行和正交等結(jié)構(gòu)先驗(yàn)來(lái)實(shí)現(xiàn)。相關(guān)代碼與現(xiàn)有的基于點(diǎn)的運(yùn)動(dòng)結(jié)構(gòu)方法無(wú)縫集成,可以利用它們的3D點(diǎn)來(lái)進(jìn)一步改進(jìn)線重建。另外,作為副產(chǎn)品,所述方法能夠恢復(fù)線和點(diǎn)/消失點(diǎn)(VP)之間的3D關(guān)聯(lián)圖。深入的實(shí)驗(yàn)表明LIMAP在3D線映射方面顯著優(yōu)于現(xiàn)有的方法。強(qiáng)大的3D折線圖同時(shí)開(kāi)辟了新的研究方向。團(tuán)隊(duì)展示了兩個(gè)示例應(yīng)用程序:視覺(jué)定位和束調(diào)整,其中將線與點(diǎn)一起積分會(huì)產(chǎn)生最佳結(jié)果。
6.?BlendFields: Few-Shot Example-Driven Facial Modeling
生成人臉的忠實(shí)可視化需要捕獲人臉幾何結(jié)構(gòu)和外觀的粗略和精細(xì)細(xì)節(jié)。現(xiàn)有的方法要么是數(shù)據(jù)驅(qū)動(dòng),需要研究界無(wú)法公開(kāi)訪問(wèn)的大量數(shù)據(jù),要么由于依賴于幾何人臉模型而無(wú)法通過(guò)網(wǎng)格離散化和線性變形來(lái)表示紋理中的細(xì)粒度細(xì)節(jié),從而無(wú)法捕獲精細(xì)細(xì)節(jié)。團(tuán)隊(duì)介紹了一種從傳統(tǒng)計(jì)算機(jī)圖形學(xué)技術(shù)中汲取靈感來(lái)彌補(bǔ)這一差距的方法。他們通過(guò)混合稀疏的一組極端姿勢(shì)的外觀來(lái)建模未見(jiàn)表情。這種混合是通過(guò)測(cè)量表情中的局部體三維變化來(lái)執(zhí)行,并且每當(dāng)在測(cè)試中執(zhí)行類似的表情時(shí),局部再現(xiàn)它們的外觀。團(tuán)隊(duì)證明了所述方法可以泛化到未見(jiàn)表情,在面部光滑的體三維之上添加細(xì)粒度的效果,并演示了它如何泛化到面部之外。
7.?CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning
這項(xiàng)工作的重點(diǎn)是手語(yǔ)檢索,一項(xiàng)最近提出的手語(yǔ)理解任務(wù)。手語(yǔ)檢索包括兩個(gè)子任務(wù):文本到手語(yǔ)視頻(T2V)檢索和手語(yǔ)視頻到文本(V2T)檢索。與傳統(tǒng)的視頻文本檢索不同,由于手語(yǔ)是一種自然語(yǔ)言,手語(yǔ)視頻不僅包含視覺(jué)信號(hào),而且本身具有豐富的語(yǔ)義??紤]到這一特點(diǎn),團(tuán)隊(duì)將手語(yǔ)檢索定義為跨語(yǔ)言檢索問(wèn)題和視頻文本檢索任務(wù)。具體而言,他們考慮了手語(yǔ)和自然語(yǔ)言的語(yǔ)言特性,同時(shí)識(shí)別了細(xì)粒度的跨語(yǔ)言(即手語(yǔ)到單詞)映射,同時(shí)在聯(lián)合嵌入空間中對(duì)比文本和手語(yǔ)視頻。這個(gè)過(guò)程稱為跨語(yǔ)言對(duì)比學(xué)習(xí)。另一個(gè)挑戰(zhàn)是數(shù)據(jù)稀缺問(wèn)題。手語(yǔ)數(shù)據(jù)集的規(guī)模比語(yǔ)音識(shí)別小幾個(gè)數(shù)量級(jí)。團(tuán)隊(duì)通過(guò)pseudo-labeling將在大規(guī)模手語(yǔ)視頻中預(yù)訓(xùn)練的domain-agnostic手語(yǔ)編碼器引入目標(biāo)領(lǐng)域,從而緩解了這一問(wèn)題。所述框架在各種數(shù)據(jù)集上以很大的優(yōu)勢(shì)優(yōu)于開(kāi)創(chuàng)性方法。
8.?Deep Frequency Filtering for Domain Generalization
提高深度神經(jīng)網(wǎng)絡(luò)的泛化能力對(duì)其實(shí)際應(yīng)用至關(guān)重要,而這一直是一個(gè)長(zhǎng)期的挑戰(zhàn)。有理論研究發(fā)現(xiàn),DNN在學(xué)習(xí)過(guò)程中對(duì)特定頻率component有偏好,并表明這可能會(huì)影響學(xué)習(xí)特征的穩(wěn)健性。在本文中,團(tuán)隊(duì)提出了用于學(xué)習(xí)domain-generalizable特征的深度頻率濾波Deep Frequency Filtering(DFF),這是首次嘗試于訓(xùn)練過(guò)程中在latent空間中明確調(diào)制跨領(lǐng)域不同transfer困難的頻率component。為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)對(duì)不同層的特征圖進(jìn)行快速傅立葉變換(FFT),然后采用輕量級(jí)模塊從FFT后的頻率表示中學(xué)習(xí)attention掩碼,以增強(qiáng)transferable component,同時(shí)抑制不利于泛化的component。另外,團(tuán)隊(duì)實(shí)證比較了采用不同類型的attention設(shè)計(jì)來(lái)實(shí)現(xiàn)DFF的有效性。大量實(shí)驗(yàn)證明了所提出的DFF的有效性。
9.?DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients
線段在我們的人造世界中無(wú)處不在,并且越來(lái)越多地用于視覺(jué)任務(wù)。由于它們的空間范圍和提供的結(jié)構(gòu)信息,它們與特征點(diǎn)是互補(bǔ)的。傳統(tǒng)的基于圖像梯度的線檢測(cè)器非??焖俸蜏?zhǔn)確,但在噪點(diǎn)圖像和具有挑戰(zhàn)性的條件下缺乏魯棒性。它們的learned counterpart更具可重復(fù)性,可以處理具有挑戰(zhàn)性的圖像,但代價(jià)是精度較低,偏向線框線。團(tuán)隊(duì)建議將傳統(tǒng)方法和學(xué)習(xí)方法相結(jié)合,以兩全其美,并實(shí)現(xiàn)一種準(zhǔn)確而穩(wěn)健的線檢測(cè)器,可以在wild訓(xùn)練,無(wú)需ground truth線。團(tuán)隊(duì)提出的新線段檢測(cè)器DeepLSD使用深度網(wǎng)絡(luò)處理圖像,以生成線吸引場(chǎng),然后將其轉(zhuǎn)換為替代圖像梯度大小和角度,然后將梯度大小和角提供給任何現(xiàn)有的手工制作的線檢測(cè)器。另外,團(tuán)隊(duì)提出了一種新的優(yōu)化工具來(lái)細(xì)化基于吸引場(chǎng)和消失點(diǎn)的線段。這種改進(jìn)大大提高了當(dāng)前深度探測(cè)器的精度。
10.?DETRs with Hybrid Matching
一對(duì)一集匹配是DETR建立端到端能力的關(guān)鍵設(shè)計(jì),因此對(duì)象檢測(cè)不需要手工制作的NMS(非最大抑制)來(lái)消除重復(fù)檢測(cè)。這種端到端簽名對(duì)于DETR的多功能性很重要,并且它已泛化到更廣泛的愿景任務(wù)中。但團(tuán)隊(duì)注意到,很少有查詢指定為正樣本,并且一對(duì)一的集合匹配顯著降低了正樣本的訓(xùn)練效果。他們提出了一種基于混合匹配方案的簡(jiǎn)單而有效的方法,它可以在訓(xùn)練期間將原始的一對(duì)一匹配分支與輔助的一對(duì)多匹配分支相結(jié)合?;旌喜呗砸炎C明可以顯著提高準(zhǔn)確性。在推理中,只使用原始的一對(duì)一匹配分支,從而保持了DETR的端到端優(yōu)點(diǎn)和相同的推理效率。所述方法被命名為H-DETR,它表明可以在廣泛的視覺(jué)任務(wù)中持續(xù)改進(jìn)廣泛的代表性DETR方法,包括Deformable-DETR、PETRv2、PETR和TransTrack等。
11.?EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
vision transformer由于其高建模能力而取得了巨大成功。然而,它們顯著的性能伴隨著沉重的計(jì)算成本,這使得它們不適合實(shí)時(shí)應(yīng)用。在本文中,團(tuán)隊(duì)提出了一個(gè)名為EfficientViT的高速vision transformer。團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有transformer模型的速度通常受到內(nèi)存低效操作的限制,特別是MHSA中的張量整形和element-wise函數(shù)。因此,團(tuán)隊(duì)設(shè)計(jì)了一種具有三明治布局的新構(gòu)建塊,即在有效的FFN層之間使用單個(gè)memory-bound MHSA,這在增強(qiáng)信道通信的同時(shí)提高了存儲(chǔ)器效率。另外,團(tuán)隊(duì)發(fā)現(xiàn)attention map具有高度相似性,導(dǎo)致計(jì)算冗余。為了解決這一問(wèn)題,團(tuán)隊(duì)提出了一種級(jí)聯(lián)的group attention模塊,為具有不同全特征分割的attention head提供反饋,這不僅節(jié)省了計(jì)算成本,而且提高了attention的多樣性。綜合實(shí)驗(yàn)表明,EfficientViT優(yōu)于現(xiàn)有的高效模型,在速度和準(zhǔn)確性之間取得了良好的平衡。
12.?Four-View Geometry with Unknown Radial Distortion
為了解決從未知校準(zhǔn)參數(shù)(即焦距和徑向失真)的圖像中進(jìn)行相對(duì)姿態(tài)估計(jì)的問(wèn)題,團(tuán)隊(duì)提出了一個(gè)新的解決方案。所述方法能夠在不建模所述參數(shù)的情況下進(jìn)行度量重建。重建至少需要校準(zhǔn)和未校準(zhǔn)camera的4個(gè)視圖中的13個(gè)點(diǎn)。在校準(zhǔn)的情況下,這可以建模為具有3584個(gè)解的多項(xiàng)式方程組。盡管表面上很難解決,但這個(gè)問(wèn)題卻以驚人的方式分解了。每個(gè)解都屬于大小為16的歐幾里得對(duì)稱類,可以通過(guò)用28、2和4個(gè)解求解一系列三個(gè)子問(wèn)題來(lái)估計(jì)224個(gè)類的代表。團(tuán)隊(duì)強(qiáng)調(diào)了徑向四焦點(diǎn)張量的內(nèi)部約束與4×4矩陣的主輔之間的關(guān)系。最后,團(tuán)隊(duì)在模擬和真實(shí)數(shù)據(jù)上評(píng)估了所述方法,并將其與以前的無(wú)校準(zhǔn)解決方案進(jìn)行了比較。
13.?High-Fidelity and Freely Controllable Talking Head Video Generation
說(shuō)話人頭生成是基于給定的源身份和目標(biāo)運(yùn)動(dòng)來(lái)生成視頻。然而,當(dāng)前的方法面臨一定的挑戰(zhàn),并限制了生成視頻的質(zhì)量和可控性。首先,生成的面孔通常會(huì)出現(xiàn)意外變形和嚴(yán)重扭曲。其次,圖像沒(méi)有顯式解開(kāi)運(yùn)動(dòng)相關(guān)信息,如姿勢(shì)和表情,這限制了在生成過(guò)程中對(duì)不同屬性的操作。第三,由于相鄰幀之間提取的landmark的不一致性,生成的視頻往往具有閃爍的偽影。在本文中,團(tuán)隊(duì)提出的新模型可以生成高保真的說(shuō)話人頭視頻,并可以自由控制頭部姿勢(shì)和表情。所述方法利用自監(jiān)督學(xué)習(xí)的landmark和基于3D人臉模型的landmark來(lái)對(duì)運(yùn)動(dòng)進(jìn)行建模。團(tuán)隊(duì)同時(shí)引入了一種新的運(yùn)動(dòng)感知多尺度特征對(duì)齊模塊,以在沒(méi)有人臉失真的情況下有效地傳遞運(yùn)動(dòng)。另外,通過(guò)特征情景自適應(yīng)和傳播模塊來(lái)增強(qiáng)合成的頭部視頻的平滑度。他們?cè)诰哂刑魬?zhàn)性的數(shù)據(jù)集上評(píng)估了模型,并展示了其最先進(jìn)的性能。
14.?Human Pose As Compositional Tokens
人體姿勢(shì)通常由身體關(guān)節(jié)或其熱圖嵌入的坐標(biāo)向量表示。盡管數(shù)據(jù)處理很容易,但由于身體關(guān)節(jié)之間缺乏依賴性建模,不現(xiàn)實(shí)的姿態(tài)估計(jì)都會(huì)接受。在本文中,團(tuán)隊(duì)提出了一種結(jié)構(gòu)化表示Pose as Compositional Tokens(PCT),以探索聯(lián)合依賴。它由M個(gè)離散的令牌表示姿勢(shì),每個(gè)令牌表征具有幾個(gè)相互依賴的關(guān)節(jié)的子結(jié)構(gòu)。這使得它能夠以低成本實(shí)現(xiàn)小的重建誤差。然后,將姿態(tài)估計(jì)視為一項(xiàng)分類任務(wù)。特別地,學(xué)習(xí)了一個(gè)分類器來(lái)預(yù)測(cè)圖像中M個(gè)標(biāo)記的類別。使用預(yù)先學(xué)習(xí)的解碼器網(wǎng)絡(luò)來(lái)從令牌中恢復(fù)姿勢(shì),而無(wú)需進(jìn)一步的后處理。實(shí)驗(yàn)表明,在一般情況下,它可以獲得與現(xiàn)有方法更好或可比的姿態(tài)估計(jì)結(jié)果。
15.?iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-training for Visual Recognition
本文提出的方法有效地結(jié)合了兩種流行的視覺(jué)識(shí)別方法,即圖像分類和對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練,而團(tuán)隊(duì)將其稱為iCLIP。他們不是對(duì)每個(gè)任務(wù)使用兩個(gè)單獨(dú)的head進(jìn)行多任務(wù)學(xué)習(xí),而是以一種深度的方式將這兩個(gè)任務(wù)融合在一起,使圖像分類與語(yǔ)言圖像預(yù)訓(xùn)練共享相同的公式和相同的模型權(quán)重。為了進(jìn)一步連接這兩個(gè)任務(wù),團(tuán)隊(duì)建議使用external knowledge來(lái)增強(qiáng)圖像分類任務(wù)中的類別名稱。大量實(shí)驗(yàn)表明,所述方法很好地結(jié)合了兩個(gè)任務(wù)的優(yōu)點(diǎn):類別標(biāo)簽清晰清晰,在圖像分類任務(wù)中具有較強(qiáng)的辨別能力;文本描述中語(yǔ)義豐富,在CLIP任務(wù)中具有良好的零樣本能力。特別是,它在In-1K上達(dá)到了82.9%的top-1準(zhǔn)確率,在Kornblith 12-dataset benchmark的零樣本識(shí)別上,在模型大小相似的情況下,超過(guò)CLIP 1.8%。
16.?Iterative Proposal Refinement for Weakly-Supervised Video Grounding
Weakly-Supervised Video Grounding(WSVG)旨在僅使用視頻級(jí)注釋將感興趣事件定位在未修剪的視頻中。到目前為止,大多數(shù)最先進(jìn)的WSVG方法都遵循兩階段流程,即首先生成潛在的臨時(shí)提案,然后以候選提案為基礎(chǔ)。盡管取得了進(jìn)展,但現(xiàn)有的提案生成方法存在兩個(gè)缺點(diǎn):1)缺乏明確的對(duì)應(yīng)模型;以及2)復(fù)雜事件的部分覆蓋。為此,團(tuán)隊(duì)提出了一種新的IteRative prOposal refiNement網(wǎng)絡(luò)(稱為IRON),以逐步將先驗(yàn)提取到每個(gè)提案中,并鼓勵(lì)具有更完整覆蓋范圍的提案。具體來(lái)說(shuō),他們建立了兩個(gè)輕量級(jí)的蒸餾分支,以揭示語(yǔ)義和概念層面上的跨模態(tài)對(duì)應(yīng)關(guān)系。然后,設(shè)計(jì)了一種迭代標(biāo)簽傳播(LP)策略,以防止網(wǎng)絡(luò)過(guò)度關(guān)注最具歧視性的事件,而不是整個(gè)句子的內(nèi)容。準(zhǔn)確地說(shuō),在每次迭代過(guò)程中,具有最小蒸餾損失的提案及其相鄰提案被視為正樣本,這以級(jí)聯(lián)的方式細(xì)化提案置信度得分。在兩個(gè)具有挑戰(zhàn)性的WSVG數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)和消融研究已經(jīng)證明了IRON的有效性。
17.?LayoutFormer++: Conditional Graphic Layout Generation via Constraint Serialization and Decoding Space Restriction
根據(jù)用戶約束生成逼真布局的條件圖形布局生成一項(xiàng)尚未得到充分研究的挑戰(zhàn)性任務(wù)。首先,關(guān)于如何靈活統(tǒng)一地處理不同的用戶約束,相關(guān)討論有限。其次,為了使布局符合用戶約束,現(xiàn)有的研究往往會(huì)顯著犧牲生成質(zhì)量。在這項(xiàng)研究中,團(tuán)隊(duì)提出LayoutFormer++來(lái)解決上述問(wèn)題。首先,為了靈活處理不同的約束,他們提出了一種約束序列化方案,將不同的用戶約束表示為具有預(yù)定義格式的令牌序列。然后,將條件布局生成公式化為序列到序列的轉(zhuǎn)換,并利用以Transformer為基本架構(gòu)的編碼器-解碼器框架。另外,為了在不影響質(zhì)量的情況下更好地滿足用戶需求,他們提出了一種解碼空間限制策略。具體來(lái)說(shuō),通過(guò)忽略肯定違反用戶約束并可能導(dǎo)致低質(zhì)量布局的選項(xiàng)來(lái)修剪預(yù)測(cè)分布,并從受限分布中制作模型樣本。實(shí)驗(yàn)表明,LayoutFormer++在所有任務(wù)上都優(yōu)于現(xiàn)有的方法,它具有更好的生成質(zhì)量和更少的約束違反。
18.?Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing
視覺(jué)語(yǔ)言處理中的自監(jiān)督學(xué)習(xí)利用了圖像和文本模態(tài)之間的語(yǔ)義對(duì)齊。盡管臨床注釋通常指先前的圖像,生物醫(yī)學(xué)VLP的先前研究主要依賴于單個(gè)圖像和報(bào)告對(duì)的對(duì)齊。這不僅導(dǎo)致模式之間的一致性較差,而且錯(cuò)過(guò)了通過(guò)數(shù)據(jù)中現(xiàn)有的時(shí)間內(nèi)容來(lái)利用豐富的自監(jiān)督的機(jī)會(huì)。在這項(xiàng)研究中,團(tuán)隊(duì)明確說(shuō)明了在訓(xùn)練和微調(diào)期間可用的先前圖像和報(bào)告。所述方法名為BioViL-T,使用與文本模型聯(lián)合訓(xùn)練的CNN Transformer混合多圖像編碼器。它設(shè)計(jì)為多功能,以應(yīng)對(duì)各種挑戰(zhàn),如隨時(shí)間變化的姿勢(shì)變化和丟失的輸入圖像。由此產(chǎn)生的模型在單圖像和多圖像設(shè)置中都優(yōu)于下游任務(wù)。團(tuán)隊(duì)發(fā)布了一個(gè)新的多模態(tài)時(shí)間基準(zhǔn)數(shù)據(jù)集MS-CXR-T,以從時(shí)間語(yǔ)義的角度量化視覺(jué)語(yǔ)言表示的質(zhì)量。
19.?Look Before You Match: Instance Understanding Matters in Video Object Segmentation
最近,基于內(nèi)存的方法在視頻對(duì)象分割(VOS)中取得了令人印象深刻的結(jié)果。然而,由于缺乏實(shí)例理解能力,上述方法往往容易受到物體和camera移動(dòng)所引起的大外觀變化或視點(diǎn)變化的影響。在本文中,團(tuán)隊(duì)認(rèn)為實(shí)例理解在VOS中很重要,而將其與基于內(nèi)存的匹配相結(jié)合可以享受協(xié)同效應(yīng)。為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)提出了一個(gè)用于VOS的兩分支網(wǎng)絡(luò),其中基于查詢的實(shí)例分割(IS)分支深入研究當(dāng)前幀的實(shí)例細(xì)節(jié),而VOS分支執(zhí)行與內(nèi)存庫(kù)的時(shí)空匹配。團(tuán)隊(duì)使用來(lái)自IS分支的學(xué)習(xí)對(duì)象查詢來(lái)將特定于實(shí)例的信息注入到查詢關(guān)鍵字中,從而進(jìn)一步執(zhí)行實(shí)例增強(qiáng)匹配。另外,團(tuán)隊(duì)引入了一種多路徑融合塊,以有效地將存儲(chǔ)器讀出與來(lái)自實(shí)例分割解碼器的多尺度特征相結(jié)合。所述方法在DAVIS 2016/2017 val(92.6%和87.1%)、DAVIS 2017 test dev(82.8%)和YouTube?VOS 2018/2019 val(86.3%和86.3%)實(shí)現(xiàn)了最先進(jìn)的性能,明顯優(yōu)于其他方法。
20.?MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining
本文提出了一個(gè)簡(jiǎn)單而有效的框架MaskCLIP,它將新提出的掩碼自蒸餾引入對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練中。掩碼自蒸餾的核心思想是將完整圖像的表示提取為掩碼圖像預(yù)測(cè)的表示。這種合并有兩個(gè)重要的好處。首先,掩碼自蒸餾以局部patch表示學(xué)習(xí)為目標(biāo),這是對(duì)專注于文本相關(guān)表示的視覺(jué)語(yǔ)言對(duì)比的補(bǔ)充。其次,從訓(xùn)練目標(biāo)的角度來(lái)看,掩碼自蒸餾也與視覺(jué)語(yǔ)言對(duì)比一致,因?yàn)閮烧叨祭靡曈X(jué)編碼器進(jìn)行特征對(duì)齊,從而能夠從語(yǔ)言中獲得間接監(jiān)督來(lái)學(xué)習(xí)局部語(yǔ)義。
21.?MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation
在這項(xiàng)研究中,團(tuán)隊(duì)提出了一個(gè)保留ID的談話人頭生成框架。與從稀疏流進(jìn)行插值相反,密集landmark對(duì)于實(shí)現(xiàn)精確的幾何感知流場(chǎng)至關(guān)重要。其次,受人臉交換方法的啟發(fā),對(duì)tu’a在合成過(guò)程中自適應(yīng)地融合源身份,使網(wǎng)絡(luò)更好地保留了圖像肖像的關(guān)鍵特征。盡管所提出的模型在已建立的基準(zhǔn)上超過(guò)了前一代的保真度,但依然需要個(gè)性化的微調(diào),從而進(jìn)一步確保說(shuō)話人頭生成符合實(shí)際使用條件。然而,這個(gè)過(guò)程在計(jì)算方面要求很高,標(biāo)準(zhǔn)用戶負(fù)擔(dān)不起。為了緩解這種情況,團(tuán)隊(duì)提出了一種使用元學(xué)習(xí)方法的快速適應(yīng)模型。所學(xué)習(xí)的模型可以最快30秒地適應(yīng)于高質(zhì)量的個(gè)性化模型。最后,團(tuán)隊(duì)提出了一種時(shí)空增強(qiáng)模塊以提高精細(xì)細(xì)節(jié),同時(shí)確保時(shí)間相關(guān)性。大量的實(shí)驗(yàn)證明了所述方法在一次性和個(gè)性化設(shè)置方面都優(yōu)于現(xiàn)有技術(shù)。
22.?MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
團(tuán)隊(duì)提出了一個(gè)聯(lián)合音視頻生成框架,它可以同時(shí)帶來(lái)引人入勝的瀏覽和聆聽(tīng)體驗(yàn),以實(shí)現(xiàn)高質(zhì)量的逼真視頻。為了生成聯(lián)合音頻-視頻對(duì),他們提出了一種新的多模擴(kuò)散模型,而它具有兩個(gè)耦合的去噪自動(dòng)編碼器。與現(xiàn)有的單模態(tài)擴(kuò)散模型相比,多模擴(kuò)散模型由一個(gè)順序的多模態(tài)U-Net組成。音頻和視頻的兩個(gè)子網(wǎng)學(xué)習(xí)從高斯噪點(diǎn)中逐漸生成對(duì)齊的音頻-視頻對(duì)。為了確保模態(tài)之間的語(yǔ)義一致性,團(tuán)隊(duì)提出了一種新的基于隨機(jī)移位的attention block橋接兩個(gè)子網(wǎng),并實(shí)現(xiàn)了有效的跨模態(tài)對(duì)齊,從而增強(qiáng)了彼此的音頻-視頻保真度。
23.?Motion Information Propagation for Neural Video Compression
在大多數(shù)現(xiàn)有的神經(jīng)視頻編解碼器中,其中的信息流是單向的,只有運(yùn)動(dòng)編碼提供用于幀編碼的運(yùn)動(dòng)矢量。在本文中,團(tuán)隊(duì)認(rèn)為通過(guò)信息交互,可以實(shí)現(xiàn)運(yùn)動(dòng)編碼和幀編碼之間的協(xié)同作用。他們通過(guò)運(yùn)動(dòng)信息傳播有效地引入了運(yùn)動(dòng)編碼和幀編碼之間的雙向信息交互。當(dāng)生成用于幀編碼的時(shí)間情景時(shí),來(lái)自運(yùn)動(dòng)解碼器的高維運(yùn)動(dòng)特征用作運(yùn)動(dòng)引導(dǎo)以減輕對(duì)準(zhǔn)誤差。同時(shí),除了在當(dāng)前時(shí)間步長(zhǎng)輔助幀編碼外,在對(duì)后續(xù)運(yùn)動(dòng)潛像進(jìn)行編碼時(shí),來(lái)自情景生成的特征將作為運(yùn)動(dòng)條件進(jìn)行傳播。通過(guò)這種相互作用的循環(huán),可以建立運(yùn)動(dòng)編碼的特征傳播,并增強(qiáng)利用長(zhǎng)程時(shí)間相關(guān)性的能力。另外,團(tuán)隊(duì)提出了混合情景生成,以利用多尺度情景特征并提供更好的運(yùn)動(dòng)條件。實(shí)驗(yàn)表明,所述方法可以比以前的SOTA神經(jīng)視頻編解碼器節(jié)省12.9%的比特率。
24.?Natural Language-Assisted Sign Language Recognition
手語(yǔ)是通過(guò)手勢(shì)、面部表情、肢體動(dòng)作等傳遞信息的視覺(jué)語(yǔ)言。由于視覺(jué)組合的固有限制,其存在大量視覺(jué)上不可區(qū)分的手語(yǔ)姿勢(shì),這限制了視覺(jué)神經(jīng)網(wǎng)絡(luò)的識(shí)別能力。為了緩解這個(gè)問(wèn)題,團(tuán)隊(duì)提出了自然語(yǔ)言輔助手語(yǔ)識(shí)別NLA-SLR架。所述框架利用了注釋中包含的語(yǔ)義信息。首先,對(duì)于具有相似語(yǔ)義的視覺(jué)符號(hào),通過(guò)為每個(gè)訓(xùn)練手語(yǔ)生成軟件標(biāo)簽來(lái)提出語(yǔ)言感知標(biāo)簽平滑。其次,對(duì)于具有不同語(yǔ)義的視覺(jué)符號(hào),提出了一種模態(tài)間混合技術(shù),融合視覺(jué)和光澤特征以在混合標(biāo)簽的監(jiān)督下進(jìn)一步最大化不同手語(yǔ)姿勢(shì)的可分性。另外,團(tuán)隊(duì)同時(shí)介紹了一種新的骨干:視頻關(guān)鍵點(diǎn)網(wǎng)絡(luò)。它不僅對(duì)RGB視頻和人體關(guān)鍵點(diǎn)進(jìn)行建模,而且從不同時(shí)間感受野的手勢(shì)視頻中獲取knowledge。所述方法在三個(gè)廣泛采用的基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能:MSSL、WLASL和NMFs-CSL。
25.?Neural Video Compression with Diverse Contexts
對(duì)于任何視頻編解碼器,編碼效率高度依賴于要編碼的當(dāng)前信號(hào)是否能夠從先前重構(gòu)的信號(hào)中找到相關(guān)情景。傳統(tǒng)的編解碼器已經(jīng)驗(yàn)證了更多的情景帶來(lái)了可觀的編碼增益,但這是以一種耗時(shí)的方式實(shí)現(xiàn)。然而,對(duì)于新興的神經(jīng)視頻編解碼器(NVC)來(lái)說(shuō),其情景依然有限,導(dǎo)致壓縮比較低。為了提高NVC,本文提出在時(shí)間和空間維度上增加情景多樣性。首先,指導(dǎo)模型跨幀學(xué)習(xí)層次質(zhì)量模式,這豐富了長(zhǎng)期但高質(zhì)量的時(shí)間情景。另外,為了挖掘基于光流的編碼框架的潛力,團(tuán)隊(duì)引入了一種基于組的偏移分集,提出了跨組交互以更好地挖掘情景。同時(shí),在對(duì)latent表示進(jìn)行并行編碼時(shí),本文采用了基于四叉樹(shù)的劃分來(lái)增加空間情景的多樣性。實(shí)驗(yàn)表明,編解碼器比以前的SOTA NVC節(jié)省了23.5%的比特率。不僅只是這樣,在PSNR方面,所提出的編解碼器在RGB和YUV420顏色空間中都超過(guò)了正在開(kāi)發(fā)中的下一代編解碼器/ECM。
26.
近年來(lái),以語(yǔ)言為導(dǎo)向的圖像編輯取得了巨大成功。在本文中,團(tuán)隊(duì)研究了樣本引導(dǎo)的圖像編輯,以實(shí)現(xiàn)更精確的控制。他們通過(guò)利用自監(jiān)督訓(xùn)練來(lái)解開(kāi)和重新組織源圖像和樣本來(lái)實(shí)現(xiàn)這一目標(biāo)。然而,naive方法會(huì)導(dǎo)致明顯的融合偽影。研究人員仔細(xì)分析了它,并提出了一個(gè)信息瓶頸和強(qiáng)augmentations來(lái)避免直接復(fù)制和粘貼示例圖像的解決方案。同時(shí),為了確保編輯過(guò)程的可控性,他們?yōu)闃颖緢D像設(shè)計(jì)了一個(gè)任意形狀的掩碼,并利用無(wú)分類器引導(dǎo)來(lái)增加與樣本圖像的相似性。整個(gè)框架涉及擴(kuò)散模型的單一正向,沒(méi)有任何迭代優(yōu)化。實(shí)驗(yàn)證明,所述方法實(shí)現(xiàn)了令人印象深刻的性能,并能夠以高保真度對(duì)wild圖像進(jìn)行可控編輯。
27.?ReCo: Region-Controlled Text-to-Image Generation
最近,大規(guī)模文本到圖像(T2I)模型在生成高保真圖像方面表現(xiàn)出了令人印象深刻的性能,但可控性有限。在本文中,團(tuán)隊(duì)提出了一種有效的T2I生成區(qū)域控制技術(shù)。他們用一組額外的位置標(biāo)記來(lái)增加T2I模型的輸入,其中位置標(biāo)記表示量化的空間坐標(biāo)。每個(gè)區(qū)域由四個(gè)位置標(biāo)記指定,以表示左上角和右下角,然后是開(kāi)放式自然語(yǔ)言區(qū)域描述。然后,用這種新的輸入接口對(duì)預(yù)先訓(xùn)練的T2I模型進(jìn)行微調(diào)。所述模型稱為ReCo,而它能夠?qū)τ砷_(kāi)放的區(qū)域文本而不是由約束類別集的對(duì)象標(biāo)簽描述的任意對(duì)象進(jìn)行區(qū)域控制。與通過(guò)位置詞增強(qiáng)的T2I模型相比,ReCo實(shí)現(xiàn)了更好的圖像質(zhì)量,并且對(duì)象被更準(zhǔn)確地放置。另外,團(tuán)隊(duì)證明了ReCo可以通過(guò)自由形式的區(qū)域描述更好地控制對(duì)象數(shù)量、空間關(guān)系和區(qū)域?qū)傩?,如顏?大小。
28.?ResFormer: Scaling ViTs with Multi-Resolution Training
Vision?Transformers(ViTs)已經(jīng)取得了巨大的成功,但它們的分辨率可擴(kuò)展性很差,即當(dāng)使用訓(xùn)練中看不到的輸入分辨率時(shí),性能會(huì)急劇下降。本文介紹了ResFormer。它對(duì)不同分辨率的復(fù)制圖像進(jìn)行操作,并強(qiáng)制執(zhí)行規(guī)模一致性損失,以參與不同規(guī)模的交互式信息。更重要的是,為了有效地在不同的分辨率之間交替,特別是在測(cè)試中的新分辨率之間,團(tuán)隊(duì)提出了一種全局局部位置嵌入策略,在輸入大小的條件下平滑變化。在ImageNet上進(jìn)行了大量的圖像分類實(shí)驗(yàn)。而結(jié)果提供的強(qiáng)有力定量證據(jù)表明,ResFormer在大范圍的分辨率方面具有很好的縮放能力。例如,當(dāng)在相對(duì)較低和較高的分辨率(即96和640)進(jìn)行評(píng)估時(shí),ResFormer-B-MR分別達(dá)到75.86%和81.72%的Top-1準(zhǔn)確率,這比DeiT-B好48%和7.49%。另外,團(tuán)隊(duì)證明ResFormer是靈活的,可以很容易地?cái)U(kuò)展到語(yǔ)義分割、對(duì)象檢測(cè)和視頻動(dòng)作識(shí)別。
29.?Revealing the Dark Secrets of Masked Image Modeling
作為預(yù)訓(xùn)練的掩碼圖像建模MIM已證明對(duì)許多視覺(jué)下游任務(wù)有效。在本文中,團(tuán)隊(duì)從可視化和實(shí)驗(yàn)兩個(gè)角度將MIM與長(zhǎng)期主導(dǎo)的監(jiān)督預(yù)訓(xùn)練模型進(jìn)行了比較,以揭示它們的關(guān)鍵代表性差異。從可視化中,他們發(fā)現(xiàn)MIM給訓(xùn)練模型的所有層帶來(lái)了局部誘導(dǎo)偏差,但監(jiān)督模型傾向于局部關(guān)注較低層,而更全局地關(guān)注較高層。這可能是MIM幫助具有非常大的感受野的Vision Transformer進(jìn)行優(yōu)化的原因。使用MIM,模型可以在所有層的attention head上保持很大的多樣性。但對(duì)于監(jiān)督模型,attention head的多樣性幾乎從最后三層消失,較少的多樣性損害了微調(diào)性能。從實(shí)驗(yàn)中,團(tuán)隊(duì)發(fā)現(xiàn)MIM模型在弱語(yǔ)義的幾何和運(yùn)動(dòng)任務(wù)或細(xì)粒度分類任務(wù)上的性能明顯優(yōu)于監(jiān)督模型。對(duì)于監(jiān)督預(yù)訓(xùn)練充分覆蓋類別的語(yǔ)義理解數(shù)據(jù)集,MIM模型依然可以實(shí)現(xiàn)具有高度競(jìng)爭(zhēng)力的遷移性能。
30.?SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
在本文中,團(tuán)隊(duì)提出了一種新的用于視覺(jué)追蹤的序列到序列學(xué)習(xí)框架SeqTrack。它將視覺(jué)追蹤視為一個(gè)序列生成問(wèn)題,以自回歸的方式預(yù)測(cè)對(duì)象邊界框。SeqTrack僅采用簡(jiǎn)單的編碼器-解碼器transformer架構(gòu)。編碼器使用雙向transformer提取視覺(jué)特征,而解碼器使用因果transformer自回歸生成邊界框值序列。損失函數(shù)是一個(gè)簡(jiǎn)單的交叉熵。這樣的序列學(xué)習(xí)范式不僅簡(jiǎn)化了追蹤框架,而且在基準(zhǔn)測(cè)試上實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能。例如,SeqTrack在LaSOT上獲得72.5%的AUC,建立了最先進(jìn)的新性能。
31.?Side Adapter Network for Open-Vocabulary Semantic Segmentation
本文提出了一種新的基于預(yù)先訓(xùn)練的視覺(jué)語(yǔ)言模型的開(kāi)放詞匯語(yǔ)義分割框架SAN。所述方法把語(yǔ)義分割任務(wù)建模為區(qū)域識(shí)別問(wèn)題。將側(cè)網(wǎng)絡(luò)連接到具有兩個(gè)分支的凍結(jié)CLIP模型:一個(gè)用于預(yù)測(cè)掩碼建議,另一個(gè)用于在CLIP模型中應(yīng)用于識(shí)別掩碼類別的attention偏差。這種解耦的設(shè)計(jì)有利于CLIP識(shí)別掩模建議的類別。由于連接的側(cè)網(wǎng)絡(luò)可以重用CLIP功能,因此它可以非常輕。另外,可以端到端地訓(xùn)練整個(gè)網(wǎng)絡(luò),允許側(cè)網(wǎng)絡(luò)適應(yīng)凍結(jié)CLIP模型。所述方法快速、準(zhǔn)確,并且只添加了額外的可訓(xùn)練參數(shù)。團(tuán)隊(duì)在多個(gè)語(yǔ)義分割基準(zhǔn)上評(píng)估所述方法,并證明它顯著優(yōu)于其他方法:可訓(xùn)練參數(shù)減少了18倍,推理速度快了19倍。
32.?Streaming Video Model
傳統(tǒng)上,視頻理解任務(wù)由兩個(gè)獨(dú)立的架構(gòu)建模?;谛蛄械囊曨l任務(wù)使用視頻主干直接提取時(shí)空特征,而基于幀的視頻任務(wù)則依賴于單個(gè)固定的圖像主干來(lái)提取空間特征。相反,團(tuán)隊(duì)建議將視頻理解任務(wù)統(tǒng)一到一個(gè)新的流式視頻架構(gòu)中,亦即S-ViT。S-ViT首先使用存儲(chǔ)器啟用的時(shí)間感知空間編碼器來(lái)產(chǎn)生幀級(jí)特征,以服務(wù)于基于幀的視頻任務(wù)。然后將幀特征輸入到與任務(wù)相關(guān)的時(shí)間解碼器中,以獲得基于序列的任務(wù)的時(shí)空特征。S-ViT的效率和功效體現(xiàn)在基于序列的動(dòng)作識(shí)別任務(wù)中的最先進(jìn)準(zhǔn)確性,以及在基于幀的MOT任務(wù)中相對(duì)于傳統(tǒng)架構(gòu)的競(jìng)爭(zhēng)優(yōu)勢(shì)上。
33.?Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction
多平面圖像MPI包含一組前向平行的RGBA層,并且是從稀疏輸入進(jìn)行視圖合成的有效表示。然而,它的固定結(jié)構(gòu)限制了性能,尤其是對(duì)于以斜角成像的表面。本文介紹了S-MPI,其中平面結(jié)構(gòu)簡(jiǎn)明地近似于3D場(chǎng)景。S-MPI通過(guò)幾何忠實(shí)的結(jié)構(gòu)傳遞RGBA情景,直接連接視圖合成和3D重建。它不僅可以克服MPI的關(guān)鍵限制,即傾斜表面的離散化偽影和冗余層的濫用,同時(shí)可以獲得平面三維重建。盡管應(yīng)用S-MPI具有直覺(jué)和需求,但依然面臨著巨大的挑戰(zhàn),例如,RGBA層和平面姿態(tài)的高保真近似、多視圖一致性、非平面區(qū)域建模以及使用相交平面的高效渲染。因此,團(tuán)隊(duì)提出了一種基于分段模型的transformer-based網(wǎng)絡(luò)。它預(yù)測(cè)了緊湊而富有表現(xiàn)力的S-MPI層及其相應(yīng)的掩碼、姿勢(shì)和RGBA情景。大量實(shí)驗(yàn)表明,所述方法優(yōu)于以前最先進(jìn)的基于MPI的視圖合成方法和平面重建方法。
34.?SVFormer: Semi-supervised Video Transformer for Action Recognition
由于視頻注釋的高成本,半監(jiān)督動(dòng)作識(shí)別是一項(xiàng)具有挑戰(zhàn)性但至關(guān)重要的任務(wù)?,F(xiàn)有的方法主要使用卷積神經(jīng)網(wǎng)絡(luò),但目前革命性的vision transformer模型很少有進(jìn)行探索。在本文中,團(tuán)隊(duì)研究了在SSL設(shè)置下使用transformer模型進(jìn)行動(dòng)作識(shí)別。為此,他們介紹了SVFormer。其中,它采用了一個(gè)穩(wěn)定的偽標(biāo)記框架(即EMA-Tacher)來(lái)處理未標(biāo)記的視頻樣本。盡管廣泛的數(shù)據(jù)增強(qiáng)已被證明對(duì)半監(jiān)督圖像分類有效,但它們通常對(duì)視頻識(shí)別產(chǎn)生有限的結(jié)果。因此,團(tuán)隊(duì)引入了一種新的增強(qiáng)策略Tube TokenMix,所述策略專為視頻數(shù)據(jù)量身定制,其中視頻片段通過(guò)掩碼與時(shí)間軸上一致的掩碼令牌混合。另外,團(tuán)隊(duì)提出了一種時(shí)間扭曲增強(qiáng)來(lái)覆蓋視頻中復(fù)雜的時(shí)間變化,它將選定的幀拉伸到剪輯中的不同時(shí)間持續(xù)時(shí)間。在Kinetics-400、UCF-101和HMDB-51三個(gè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)驗(yàn)證了SVFormer的優(yōu)勢(shì)。
35.?TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models
掩碼圖像建模MIM在預(yù)訓(xùn)練大型vision transformers(ViTs)中表現(xiàn)強(qiáng)勁。然而,對(duì)于現(xiàn)實(shí)世界的應(yīng)用至關(guān)重要的小型模型不能或只能從這種預(yù)訓(xùn)練方法中獲得少量好處。在本文中,團(tuán)隊(duì)探索了蒸餾技術(shù),以將基于大型MIM的預(yù)訓(xùn)練模型的成功轉(zhuǎn)移到較小的模型。他們系統(tǒng)地研究了提取框架中的不同選項(xiàng),包括提取目標(biāo)、損失、輸入、網(wǎng)絡(luò)正則化、順序提取等,并揭示了以下三點(diǎn):1)提取令牌關(guān)系比基于CLS令牌和特征的提取更有效;2) 當(dāng)student的深度與teacher的深度不匹配時(shí),作為目標(biāo)的teacher網(wǎng)絡(luò)的中間層比使用最后一層的表現(xiàn)更好;3) 弱正則化是優(yōu)選的。團(tuán)隊(duì)實(shí)現(xiàn)了顯著的微調(diào)精度改進(jìn)。他們的TinyMIM基本大小模型在AE20K語(yǔ)義分割中實(shí)現(xiàn)了52.2mIoU,比MAE基線高+4.1。
36.?Two-Shot Video Object Segmentation
先前關(guān)于視頻對(duì)象分割VOS的研究是在密集注釋的視頻上進(jìn)行訓(xùn)練。然而,獲取像素級(jí)別的注釋昂貴且耗時(shí)的。在這項(xiàng)研究中,團(tuán)隊(duì)證明了在稀疏注釋的視頻上訓(xùn)練令人滿意的VOS模型的可行性。團(tuán)隊(duì)將這種新穎的訓(xùn)練范式稱為Two-Shot視頻對(duì)象分割。其基本思想是在訓(xùn)練期間為未標(biāo)記的幀生成偽標(biāo)簽,并根據(jù)標(biāo)記數(shù)據(jù)和偽標(biāo)記數(shù)據(jù)的組合優(yōu)化模型。所述方法非常簡(jiǎn)單,可以應(yīng)用于大多數(shù)現(xiàn)有框架。他們首先以半監(jiān)督的方式在稀疏注釋的視頻上預(yù)訓(xùn)練VOS模型,第一幀始終是標(biāo)記的幀。然后,采用預(yù)先訓(xùn)練的VOS模型為所有未標(biāo)記的幀生成偽標(biāo)簽,然后將其存儲(chǔ)在偽標(biāo)簽庫(kù)中。最后,在標(biāo)記和偽標(biāo)記數(shù)據(jù)上重新訓(xùn)練VOS模型,而對(duì)第一幀沒(méi)有任何限制。
37.?Unifying Layout Generation with a Decoupled Diffusion Model
布局生成旨在合成由具有不同屬性的元素組成的逼真的圖形場(chǎng)景,包括類別、大小、位置和元素之間的關(guān)系。這是一項(xiàng)關(guān)鍵任務(wù),可以減輕格式化場(chǎng)景的重型圖形設(shè)計(jì)工作的負(fù)擔(dān)。多樣化的應(yīng)用場(chǎng)景給統(tǒng)一各種布局生成子任務(wù)(包括有條件和無(wú)條件生成)帶來(lái)了巨大挑戰(zhàn)。在本文中,團(tuán)隊(duì)提出了一個(gè)布局?jǐn)U散生成模型LDGM來(lái)實(shí)現(xiàn)與單個(gè)解耦擴(kuò)散模型的統(tǒng)一。LDGM將任意缺失或粗略元素屬性的布局視為已完成布局的中間擴(kuò)散狀態(tài)。由于不同的屬性有其各自的語(yǔ)義和特征,團(tuán)隊(duì)對(duì)它們的擴(kuò)散過(guò)程進(jìn)行解耦,以提高訓(xùn)練樣本的多樣性,并聯(lián)合學(xué)習(xí)反向過(guò)程,以利用全局范圍的情景來(lái)促進(jìn)生成。因此,LDGM可以從零開(kāi)始或以任意可用屬性為條件生成布局。大量的定性和定量實(shí)驗(yàn)表明,LDGM在功能和性能方面都優(yōu)于現(xiàn)有的布局生成模型。
38.?VideoTrack: Learning to Track Objects via Video Transformer
現(xiàn)有的 Siamese追蹤方法建立在兩個(gè)單幀之間的成對(duì)匹配基礎(chǔ)上,嚴(yán)重依賴于額外的復(fù)雜機(jī)制來(lái)利用連續(xù)視頻幀之間的時(shí)間信息,阻礙了它們的高效和工業(yè)部署。在這項(xiàng)研究中,團(tuán)隊(duì)采用了序列級(jí)目標(biāo)匹配,從而可以通過(guò)整潔的前饋視頻模型將時(shí)間情景編碼為空間特征。具體而言,團(tuán)隊(duì)通過(guò)直接從幀級(jí)patch序列中實(shí)現(xiàn)時(shí)空特征學(xué)習(xí),使標(biāo)準(zhǔn)video transformer架構(gòu)適應(yīng)視覺(jué)追蹤。為了更好地適應(yīng)追蹤任務(wù),通過(guò)順序的多分支三元組block仔細(xì)地混合視頻片段中的時(shí)空信息,以形成video transformer主干。然后,團(tuán)隊(duì)提出了一種解糾纏的雙模板機(jī)制,將靜態(tài)和動(dòng)態(tài)外觀隨時(shí)間的變化解耦,并減少視頻幀中的時(shí)間冗余。大量實(shí)驗(yàn)表明,所述在實(shí)時(shí)運(yùn)行的同時(shí)取得了最先進(jìn)的結(jié)果。
39.?VolRecon: Volume Rendering of Signed Ray Distance Functions for Generalizable Multi-View Reconstruction
神經(jīng)輻射場(chǎng)NeRF在新視圖合成中的成功啟發(fā)了研究人員提出神經(jīng)隱式場(chǎng)景重建。然而,大多數(shù)現(xiàn)有的神經(jīng)隱式重建方法都會(huì)優(yōu)化每個(gè)場(chǎng)景的參數(shù),因此缺乏對(duì)新場(chǎng)景的可泛化性。團(tuán)隊(duì)介紹了一種新的具有Signed Ray Distance Function (SRDF)的可泛化隱式重建方法VolRecon。為了重建具有精細(xì)細(xì)節(jié)和少量噪低點(diǎn)的場(chǎng)景,VolRecon結(jié)合了從多視圖特征聚合的投影特征和從coarse global feature volume插值的體三維特征。使用ray transformer,團(tuán)隊(duì)計(jì)算光線上采樣點(diǎn)的SRDF值,然后渲染顏色和深度。在DTU數(shù)據(jù)集上,VolRecon在稀疏視圖重建方面比SparseNeuS高出約30%,在全視圖重建方面實(shí)現(xiàn)了與MVSNet相當(dāng)?shù)木取A硗?,所述方法在large-scale ETH3D基準(zhǔn)測(cè)試上表現(xiàn)出良好的泛化性能。
40.?X-Avatar: Expressive Human Avatars
X-Avatar是一種新穎的化身模型,它可以捕獲數(shù)字人類的全部表現(xiàn)力。所述方法以整體的方式對(duì)身體、手、面部表情和外表進(jìn)行建模,并能夠從全3D掃描或RGB-D數(shù)據(jù)中學(xué)習(xí)。為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)提出了一個(gè)可以由SMPL-X的參數(shù)空間驅(qū)動(dòng)的part-aware學(xué)習(xí)的前向蒙皮模塊。為了有效地學(xué)習(xí)神經(jīng)形狀和變形場(chǎng),團(tuán)隊(duì)提出了新的part-aware采樣和初始化策略。這帶來(lái)了更高的逼真度結(jié)果,尤其是對(duì)于較小的身體部位。盡管關(guān)節(jié)骨骼的數(shù)量增加了,但依然能保持有效的訓(xùn)練。為了用高頻細(xì)節(jié)捕獲化身的外觀,團(tuán)隊(duì)用紋理網(wǎng)絡(luò)擴(kuò)展了幾何和變形場(chǎng)。實(shí)驗(yàn)表明,所述方法在動(dòng)畫任務(wù)的數(shù)量和質(zhì)量上都優(yōu)于強(qiáng)基線。為了促進(jìn)未來(lái)對(duì)化身的研究,團(tuán)隊(duì)貢獻(xiàn)了一個(gè)名為X-Humans的新數(shù)據(jù)集,其中包含來(lái)自20名參與者的233個(gè)高質(zhì)量紋理掃描序列,總計(jì)35500個(gè)數(shù)據(jù)幀。

---
原文鏈接:https://news.nweon.com/109343