ICCV 2023 錄用論文分享!進(jìn)來(lái)看CV最新熱門研究方向!
ICCV 2023 近日也開獎(jiǎng)了!看了一下,總共收錄了2160篇論文,創(chuàng)了歷史新高。作為計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議之一,ICCV 收錄的論文自然也都具有非常高的研究?jī)r(jià)值,建議有需求的同學(xué)多關(guān)注多關(guān)注,說(shuō)不定下一篇中稿的論文ideal就在這里。
為了幫助大家學(xué)習(xí),學(xué)姐今天就繼續(xù)來(lái)分享論文了!簡(jiǎn)單看了一下paper ID list,由于論文數(shù)量較多,所以只挑選了一部分的論文做分享,ICCV官方發(fā)布的Accepted Paper ID List 學(xué)姐也整理啦,大家根據(jù)ID搜索論文即可。

掃碼添加小享,回復(fù)“ICCV論文”
免費(fèi)獲取論文+部分代碼+錄用清單

圖像分割
Segment Anything
標(biāo)題:分割一切
這篇不用學(xué)姐多介紹了吧。
A Simple Framework for Open-Vocabulary Segmentation and Detection
標(biāo)題:一個(gè)用于開放詞匯分割和檢測(cè)的簡(jiǎn)單框架
內(nèi)容:作者提出了OpenSeeD,一個(gè)簡(jiǎn)單的開放詞匯分割和檢測(cè)聯(lián)合框架,可以同時(shí)從不同的分割和檢測(cè)數(shù)據(jù)集中學(xué)習(xí)。
為橋接詞匯和注釋粒度的鴻溝,作者首先引入了一個(gè)預(yù)訓(xùn)練的文本編碼器來(lái)編碼兩個(gè)任務(wù)中的所有視覺(jué)概念,并為它們學(xué)習(xí)一個(gè)共同的語(yǔ)義空間。為進(jìn)一步協(xié)調(diào)它們,作者定位了兩個(gè)差異:分割需要提取前景目標(biāo)和背景區(qū)域的遮擋,而檢測(cè)僅關(guān)注前者;框和遮擋注釋具有不同的空間粒度,因此不能直接互換。為解決這些問(wèn)題,作者提出了解耦解碼和條件遮擋解碼。最終,作者開發(fā)了一個(gè)簡(jiǎn)單的編碼器-解碼器模型,在兩個(gè)數(shù)據(jù)集上聯(lián)合訓(xùn)練。預(yù)訓(xùn)練后,作者的模型在分割和檢測(cè)上展現(xiàn)出更好的零樣本遷移能力。

擴(kuò)散模型
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
標(biāo)題:SVDiff:隱變量微調(diào)的緊湊參數(shù)空間
內(nèi)容:隱變量模型在文本到圖像生成中取得了顯著成功,使得從文本提示或其他模式生成高質(zhì)量圖像成為可能。但是,現(xiàn)有的自定義這些模型的方法受限于處理多個(gè)個(gè)性化主體和過(guò)擬合風(fēng)險(xiǎn)。此外,它們的大量參數(shù)對(duì)模型存儲(chǔ)效率不高。本文提出了一個(gè)新方法來(lái)解決現(xiàn)有文本到圖像隱變量模型個(gè)性化中的這些限制。作者的方法涉及到微調(diào)權(quán)重矩陣的奇異值,導(dǎo)致一個(gè)緊湊高效的參數(shù)空間,減少過(guò)擬合和語(yǔ)言漂移風(fēng)險(xiǎn)。作者還提出了Cut-Mix-Unmix數(shù)據(jù)增強(qiáng)技術(shù)來(lái)提高多主體圖像生成質(zhì)量,以及一個(gè)簡(jiǎn)單的基于文本的圖像編輯框架。

Pix2Video: Video Editing using Image Diffusion
Zero-1-to-3: Zero-shot One Image to 3D Object
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
多模態(tài)(達(dá)摩院mPLUG)
HiTeA:HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
標(biāo)題:HiTeA:分層時(shí)序感知視頻語(yǔ)言預(yù)訓(xùn)練
內(nèi)容:本文提出了一個(gè)分層時(shí)序感知視頻語(yǔ)言預(yù)訓(xùn)練框架HiTeA,帶有兩個(gè)用于建模時(shí)刻與文本跨模態(tài)對(duì)齊以及視頻文本對(duì)時(shí)間關(guān)系的新穎預(yù)訓(xùn)練任務(wù)。具體而言,作者提出了一個(gè)跨模態(tài)時(shí)刻探索任務(wù)來(lái)探索視頻中的時(shí)刻,得到詳細(xì)的視頻時(shí)刻表示。此外,通過(guò)不同時(shí)間分辨率下的整體視頻文本對(duì)齊,內(nèi)在的時(shí)序關(guān)系被多模態(tài)時(shí)序關(guān)系探索任務(wù)捕獲。此外,作者引入了洗牌測(cè)試來(lái)評(píng)估數(shù)據(jù)集和視頻語(yǔ)言預(yù)訓(xùn)練模型的時(shí)序依賴性,在15個(gè)視頻語(yǔ)言理解和生成任務(wù)上達(dá)到了最先進(jìn)的結(jié)果。

TW-BERT:Learning Trajectory-Word Alignments for Video-Language Tasks
BUS:BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization
VIT
ElasticViT: Confict-aware Supernet Training for Deploying Fast VisionTransformer on Diverse Mobile Devices
標(biāo)題:ElasticViT: 沖突感知超網(wǎng)絡(luò)訓(xùn)練,在各種移動(dòng)設(shè)備上部署快速視覺(jué)轉(zhuǎn)換器
內(nèi)容:在本工作中,作者提出了ElasticViT,這是一種兩階段的NAS方法,它在一個(gè)非常大的搜索空間上訓(xùn)練高質(zhì)量的ViT超網(wǎng)絡(luò),該搜索空間支持廣泛的移動(dòng)設(shè)備,然后為直接部署搜索優(yōu)化子網(wǎng)絡(luò)。但是,依賴統(tǒng)一采樣的先前超網(wǎng)絡(luò)訓(xùn)練方法遭受梯度沖突問(wèn)題:采樣的子網(wǎng)絡(luò)可以有非常不同的模型大小(例如50M與2G FLOPs),導(dǎo)致不同的優(yōu)化方向和較差的性能。
為解決這個(gè)挑戰(zhàn),作者提出了兩種新的采樣技術(shù):復(fù)雜性感知采樣和性能感知采樣。復(fù)雜性感知采樣限制相鄰訓(xùn)練步驟中采樣的子網(wǎng)絡(luò)之間的FLOPs差異,同時(shí)覆蓋搜索空間中的不同大小的子網(wǎng)絡(luò)。性能感知采樣進(jìn)一步選擇具有良好準(zhǔn)確率的子網(wǎng)絡(luò),這可以減少梯度沖突并提高超網(wǎng)絡(luò)質(zhì)量。作者發(fā)現(xiàn)的模型ElasticViT模型在ImageNet上的top-1準(zhǔn)確率從60M到800M FLOPs在67.2%到80.0%之間,沒(méi)有額外的重新訓(xùn)練,超過(guò)了所有先前的CNN和ViT的準(zhǔn)確率和延遲。

GAN
3DHumanGAN: Towards Photo-Realistic 3D-Aware Human Image Generation
標(biāo)題:3DHumanGAN:面向照片級(jí)逼真的3D感知人體圖像生成
內(nèi)容:作者提出了3DHumanGAN,這是一個(gè)3D感知的生成對(duì)抗網(wǎng)絡(luò)(GAN),可以在不同的視角和姿態(tài)下合成具有一致外觀的全身人體圖像。為了解決合成人體關(guān)節(jié)結(jié)構(gòu)的表示和計(jì)算挑戰(zhàn),作者提出了一種新的生成器架構(gòu),其中一個(gè)2D卷積主干被一個(gè)3D姿態(tài)映射網(wǎng)絡(luò)調(diào)制。3D姿態(tài)映射網(wǎng)絡(luò)被表述為一個(gè)可渲染的隱函數(shù),條件化一個(gè)具姿態(tài)的3D人體網(wǎng)格。
這種設(shè)計(jì)具有幾個(gè)優(yōu)點(diǎn):i)它允許我們利用2D GAN的能力生成照片級(jí)真實(shí)的圖像;ii)它可以在不同的視角下生成一致的圖像,并指定姿態(tài):iii)該模型可以從3D人體先驗(yàn)中獲益。

掃碼添加小享,回復(fù)“ICCV論文”
免費(fèi)獲取論文+部分代碼+錄用清單

3D目標(biāo)檢測(cè)
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
標(biāo)題:PETRv2:從多相機(jī)圖像進(jìn)行3D感知的統(tǒng)一框架
內(nèi)容:本文提出了PETRv2,一個(gè)從多視圖圖像進(jìn)行3D感知的統(tǒng)一框架?;赑ETR [24],PETRv2探索了時(shí)序建模的有效性,它利用前幀的時(shí)序信息來(lái)增強(qiáng)3D目標(biāo)檢測(cè)。具體而言,作者擴(kuò)展了PETR中的3D位置嵌入(3D PE)進(jìn)行時(shí)序建模。3D PE實(shí)現(xiàn)了不同幀上的目標(biāo)位置的時(shí)序?qū)R。一個(gè)特征引導(dǎo)的位置編碼器進(jìn)一步被引入來(lái)提高3D PE的數(shù)據(jù)適應(yīng)性。為支持多任務(wù)學(xué)習(xí)(例如BEV分割和3D車道檢測(cè)),PETRv2通過(guò)引入任務(wù)特定的查詢提供了一個(gè)簡(jiǎn)單有效的解決方案,這些查詢?cè)诓煌目臻g下初始化。PETRv2在3D目標(biāo)檢測(cè)、BEV分割和3D車道檢測(cè)上都取得了最先進(jìn)的性能。

DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection
標(biāo)題:DQS3D: 密匹配的量化感知半監(jiān)督3D檢測(cè)
內(nèi)容:本文研究了半監(jiān)督3D目標(biāo)檢測(cè)問(wèn)題,考慮到雜亂的室內(nèi)3D場(chǎng)景的高標(biāo)注成本,這是一個(gè)非常重要的問(wèn)題。雖然這一范式對(duì)圖像級(jí)或像素級(jí)預(yù)測(cè)很自然,但將其應(yīng)用到檢測(cè)問(wèn)題面臨提案匹配的問(wèn)題。之前的方法基于兩階段管道,匹配在第一階段中生成的經(jīng)驗(yàn)選擇的提案,導(dǎo)致訓(xùn)練信號(hào)空間稀疏。相比之下,作者提出了第一個(gè)以單階段方式工作的半監(jiān)督3D檢測(cè)算法,允許空間密集的訓(xùn)練信號(hào)。這個(gè)新設(shè)計(jì)的一個(gè)基本問(wèn)題是點(diǎn)到體素量化引起的量化誤差,這不可避免地導(dǎo)致體素域中兩個(gè)變換視圖之間的失配。為此,作者推導(dǎo)和實(shí)現(xiàn)了在線補(bǔ)償這種失配的封閉形式規(guī)則。

視頻理解
Unmasked Teacher: Towards Training-Efficient Video Foundation Models
標(biāo)題:Unmasked Teacher:面向訓(xùn)練高效的視頻基礎(chǔ)模型
內(nèi)容:本文提出了一個(gè)時(shí)間敏感 VFMs 的訓(xùn)練高效方法,整合了現(xiàn)有方法的優(yōu)點(diǎn)。為增加數(shù)據(jù)效率,作者屏蔽了大多數(shù)低語(yǔ)義視頻標(biāo)記,但選擇性地將未屏蔽標(biāo)記與 IFM 對(duì)齊,IFM 充當(dāng)未屏蔽教師(UMT)。通過(guò)提供語(yǔ)義指導(dǎo),作者的方法實(shí)現(xiàn)更快收斂和多模態(tài)友好。隨著漸進(jìn)式預(yù)訓(xùn)練框架,該模型可以處理各種任務(wù),包括場(chǎng)景相關(guān)、時(shí)間相關(guān)和復(fù)雜視頻語(yǔ)言理解。僅用公開源在6天內(nèi)在32個(gè)A100 GPU上預(yù)訓(xùn)練,作者從零構(gòu)建的ViT-L/16取得了視頻理解領(lǐng)域的最先進(jìn)性能。

低光照?qǐng)D像增強(qiáng)
Implicit Neural Representation for Cooperative Low-light Image Enhancement
標(biāo)題:用于合作低光圖像增強(qiáng)的隱式神經(jīng)表示
內(nèi)容:作者提出了一種用于合作低光圖像增強(qiáng)的隱式神經(jīng)表征方法:NeRCo。它以非監(jiān)督的方式穩(wěn)健地恢復(fù)感知友好的結(jié)果。具體而言,NeRCo使用可控配函數(shù)統(tǒng)一真實(shí)場(chǎng)景的各種退化因素,從而實(shí)現(xiàn)更好的魯棒性。此外,對(duì)于輸出結(jié)果,作者引入了來(lái)自預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型的先驗(yàn)的語(yǔ)義導(dǎo)向的監(jiān)督。它不僅僅遵循參考圖像,還鼓勵(lì)結(jié)果滿足主觀預(yù)期,找到更多視覺(jué)友好的解決方案。此外,為了減少對(duì)成對(duì)數(shù)據(jù)的依賴和減少解空間,作者開發(fā)了一個(gè)雙閉環(huán)約束增強(qiáng)模塊。它以自監(jiān)督的方式與其他附屬模塊合作訓(xùn)練。大量實(shí)驗(yàn)證明了NeRCo的魯棒性和卓越有效性。

UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer
標(biāo)題:UniFormerV2:通過(guò)在圖像ViTs上配備視頻UniFormer進(jìn)行時(shí)空學(xué)習(xí)
內(nèi)容:論文提出了一種通用范式來(lái)構(gòu)建強(qiáng)大的視頻網(wǎng)絡(luò)家族,通過(guò)在預(yù)訓(xùn)練的ViTs上加裝高效的UniFormer設(shè)計(jì)。作者將這個(gè)家族稱為UniFormerV2,因?yàn)樗^承了UniFormer塊的簡(jiǎn)潔風(fēng)格。但它包含全新的局部和全局關(guān)系聚合器,通過(guò)無(wú)縫集成ViTs和UniFormer的優(yōu)勢(shì),允許更好的準(zhǔn)確度計(jì)算平衡。在沒(méi)有任何修飾的情況下,作者的UniFormerV2在8個(gè)流行的視頻基準(zhǔn)測(cè)試中獲得了最先進(jìn)的識(shí)別性能,包括與場(chǎng)景相關(guān)的Kinetics-400/600/700和Moments in Time,與時(shí)間相關(guān)的Something Something V1/V2,未修剪的ActivityNet和HACS。

視頻語(yǔ)義定位
Scanning Only Once: An End-to-end Framework for FastTemporal Grounding in Long Videos
標(biāo)題:僅掃描一次: 長(zhǎng)視頻中快速時(shí)序定位的端到端框架
內(nèi)容:本論文針對(duì)長(zhǎng)視頻時(shí)序定位任務(wù)提出了一個(gè)端到端的快速框架。
主要做法:
1. 首先對(duì)非重疊的視頻片段進(jìn)行粗粒度建模,提取上下文信息。
2. 然后只對(duì)與查詢高度相關(guān)的少數(shù)anchor片段進(jìn)行細(xì)粒度建模,獲取詳細(xì)的內(nèi)容信息。
3. 通過(guò)整體對(duì)完整視頻建模,可以捕獲長(zhǎng)距離的時(shí)序關(guān)聯(lián)信息,從而進(jìn)行更準(zhǔn)確的時(shí)序定位。
4. 在長(zhǎng)視頻時(shí)序定位數(shù)據(jù)集上,該方法明顯優(yōu)于當(dāng)前state-of-the-art。

南洋理工大學(xué)MMLab(20篇)
Text2Performer: Text-Driven Human Video Generation
StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces
ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model
Robo3D: Towards Robust and Reliable 3D Perception against Corruptions
Towards Multi-Layered 3D Garments Animation
SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling
SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis
SHERF: Generalizable Human NeRF from a Single Image
Rethinking Range View Representation for LiDAR Segmentation
Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation
Betrayed-by-Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation
Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human Generation
StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation
Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation
DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields
DNA-Rendering : A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions
ProPainter: Improving Video Inpainting with Enhanced Propagation and Efficient Transformer
Deep Geometrized Cartoon Line Inbetweening
掃碼添加小享,回復(fù)“ICCV論文”
免費(fèi)獲取論文+部分代碼+錄用清單
