CVPR 2023 | 視頻AIGC,預(yù)測(cè)/插幀/生成/編輯
1、A Dynamic Multi-Scale Voxel Flow Network for Video Prediction
視頻預(yù)測(cè)(video prediction)的性能已經(jīng)通過(guò)先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)大幅提高。然而,大多數(shù)當(dāng)前的方法存在著大的模型尺寸和需要額外的輸入(如,語(yǔ)義/深度圖)以實(shí)現(xiàn)良好的性能。出于效率考慮,本文提出了一個(gè)動(dòng)態(tài)多尺度體素流網(wǎng)絡(luò)(Dynamic Multi-scale Voxel Flow Network,DMVFN),只基于RGB圖像,可以在更低的計(jì)算成本下實(shí)現(xiàn)更好的視頻預(yù)測(cè)性能,比之前的方法快一個(gè)數(shù)量級(jí)。
DMVFN的核心是一個(gè)可以有效感知視頻幀的運(yùn)動(dòng)尺度的可微分路由模塊(differentiable routing module)。一旦訓(xùn)練完成,在推理階段為不同的輸入選擇自適應(yīng)子網(wǎng)絡(luò)。在幾個(gè)基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明,相比于Deep Voxel Flow,DMVFN速度快一個(gè)數(shù)量級(jí),超越了最新的基于迭代的OPT在生成圖像質(zhì)量上的表現(xiàn)。
https://huxiaotaostasy.github.io/DMVFN/
2、A Unified Pyramid Recurrent Network for Video Frame Interpolation
流引導(dǎo)合成(Flow-guided synthesis),為幀插值提供了一個(gè)通用的框架,其中估計(jì)光流以指導(dǎo)合成兩個(gè)連續(xù)輸入之間的中間幀。本文提出了一種新型的統(tǒng)一金字塔循環(huán)網(wǎng)絡(luò)(UPR-Net)用于幀插值。UPR-Net利用靈活的金字塔框架,利用輕量級(jí)循環(huán)模塊進(jìn)行雙向流估計(jì)和中間幀合成。在每個(gè)金字塔級(jí)別,它利用估計(jì)的雙向流為幀合成生成正向變形表示;跨越金字塔級(jí)別,它使迭代的優(yōu)化用于光流和中間幀。迭代合成策略可以顯著提高大運(yùn)動(dòng)情況下的幀插值的魯棒性。
盡管基于UPR-Net的基礎(chǔ)版本極度輕量(1.7M參數(shù)),但在大量基準(zhǔn)測(cè)試上表現(xiàn)出色。UPR-Net系列的代碼和訓(xùn)練模型在https://github.com/srcn-ivl/UPR-Net
3、Conditional Image-to-Video Generation with Latent Flow Diffusion Models
條件圖像到視頻(Conditional image-to-video,cI2V)生成,旨在從圖像(例如,人臉)和條件(例如,類別標(biāo)簽,例如微笑)開(kāi)始合成一個(gè)新的 plausible 視頻。cI2V任務(wù)的關(guān)鍵挑戰(zhàn)在于同時(shí)生成與給定圖像和條件對(duì)應(yīng)的空間外觀和時(shí)間性動(dòng)態(tài)。
本文提出一種使用基于新型潛流擴(kuò)散模型(latent flow diffusion models,LFDM)的cI2V方法。與以前直接合成相比,LFDM更好利用給定圖像的空間內(nèi)容,在潛在空間中進(jìn)行變形來(lái)合成細(xì)節(jié)和運(yùn)動(dòng)。LFDM訓(xùn)練分為兩個(gè)獨(dú)立階段:(1)無(wú)監(jiān)督學(xué)習(xí)階段,用于訓(xùn)練潛在流自動(dòng)編碼器以進(jìn)行空間內(nèi)容生成,其中流預(yù)測(cè)器用于估計(jì)視頻幀對(duì)之間的潛在流(2)條件學(xué)習(xí)階段,用于訓(xùn)練基于3D-UNet的擴(kuò)散模型(DM)以進(jìn)行時(shí)間潛在流生成。LFDM僅需要學(xué)習(xí)低維潛在流空間以進(jìn)行運(yùn)動(dòng)生成,計(jì)算高效。
在多個(gè)數(shù)據(jù)集上進(jìn)行了全面實(shí)驗(yàn),證明LFDM始終優(yōu)于現(xiàn)有技術(shù)。此外,展示LFDM可以通過(guò)簡(jiǎn)單微調(diào)圖像解碼器來(lái)輕松適應(yīng)新領(lǐng)域。代碼在https://github.com/nihaomiao/CVPR23_LFDM
4、Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding
受最近人臉圖像編輯方法的卓越性能啟發(fā),有幾項(xiàng)研究自然地提出將這些方法擴(kuò)展到視頻編輯任務(wù)中。其中一個(gè)主要的挑戰(zhàn)是編輯幀之間的時(shí)間一致性,這仍然沒(méi)有解決。
為此,提出了一種基于擴(kuò)散自動(dòng)編碼器的新的人臉視頻編輯框架,能夠通過(guò)簡(jiǎn)單地操作具有時(shí)間穩(wěn)定性的特征即可實(shí)現(xiàn)視頻編輯以達(dá)到一致性。模型另一個(gè)獨(dú)特優(yōu)勢(shì)是,基于擴(kuò)散模型可以同時(shí)滿足重建和編輯能力,并且不同于現(xiàn)有的基于GAN的方法,可以抵御極端情況,自然場(chǎng)景人臉視頻(例如遮擋的面部)。
https://diff-video-ae.github.io/
5、Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation
有效地提取幀間運(yùn)動(dòng)和外觀信息對(duì)于視頻幀插值(video frame interpolation,VFI)非常重要。以往要么混合提取這兩種信息,要么針對(duì)每種信息都要有詳盡的單獨(dú)模塊,這會(huì)導(dǎo)致表示的模糊性和效率不高。
本文提出一種新模塊,通過(guò)統(tǒng)一的操作明確地提取運(yùn)動(dòng)和外觀信息。具體而言,重新考慮幀間注意力中的信息處理,并重用其注意力圖以用于外觀特征增強(qiáng)和運(yùn)動(dòng)信息提取。此外,為了實(shí)現(xiàn)高效的VFI,模塊可以無(wú)縫集成到混合CNN和Transformer體系結(jié)構(gòu)中。這種混合管道可以緩解幀間注意力的計(jì)算復(fù)雜性,同時(shí)保留詳細(xì)的低級(jí)結(jié)構(gòu)信息。
實(shí)驗(yàn)結(jié)果表明,無(wú)論是在固定間隔還是任意間隔的插值方面,方法在各種數(shù)據(jù)集上都實(shí)現(xiàn)了最先進(jìn)性能。同時(shí),與具有相似性能的模型相比,具有更小的計(jì)算開(kāi)銷。源代碼和模型在https://github.com/MCG-NJU/EMA-VF
6、MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation
提出了第一個(gè)聯(lián)合音頻-視頻生成的框架,可以同時(shí)帶來(lái)引人入勝的觀看和聽(tīng)覺(jué)體驗(yàn),旨在實(shí)現(xiàn)高質(zhì)量的逼真視頻。為了生成聯(lián)合音視頻對(duì),提出了一種新的多模態(tài)擴(kuò)散模型(即MM-Diffusion),其中包括兩個(gè)耦合去噪自編碼器。與現(xiàn)有的單模態(tài)擴(kuò)散模型不同,MM-Diffusion由一個(gè)順序的多模態(tài)U-Net組成,通過(guò)設(shè)計(jì)用于聯(lián)合去噪過(guò)程。用于音頻和視頻的兩個(gè)子網(wǎng)絡(luò)逐步從高斯噪聲中學(xué)習(xí)生成對(duì)齊的音頻視頻對(duì)。
實(shí)驗(yàn)結(jié)果表明,在無(wú)條件音視頻生成和零樣本條件任務(wù)(例如,視頻到音頻)方面具有優(yōu)越的結(jié)果。代碼和預(yù)訓(xùn)練模型在https://github.com/researchmm/MM-Diffusion
7、MOSO: Decomposing MOtion, Scene and Object for Video Prediction
運(yùn)動(dòng)、場(chǎng)景和物體是視頻的三個(gè)主要視覺(jué)組成部分。特別是,物體代表前景,場(chǎng)景代表背景,運(yùn)動(dòng)則追蹤它們的動(dòng)態(tài)?;谶@個(gè)認(rèn)識(shí),本文提出了一個(gè)兩階段的運(yùn)動(dòng)、場(chǎng)景和物體分解框架(MOtion, Scene and Object decomposition,MOSO),用于視頻預(yù)測(cè),包括MOSO-VQVAE和MOSO-Transformer。
在第一階段中,MOSO-VQVAE將先前視頻剪輯分解為運(yùn)動(dòng)、場(chǎng)景和物體組件,并將它們表示為不同的離散token組。然后,在第二階段中,MOSO-Transformer基于先前的標(biāo)記預(yù)測(cè)后續(xù)視頻剪輯的物體和場(chǎng)景token,并在生成的物體和場(chǎng)景token級(jí)別上添加動(dòng)態(tài)運(yùn)動(dòng)。
框架可以輕松擴(kuò)展到無(wú)條件視頻生成和視頻幀插值任務(wù)。實(shí)驗(yàn)結(jié)果表明,方法在視頻預(yù)測(cè)和無(wú)條件視頻生成的五個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中取得了新的最優(yōu)性能:BAIR、RoboNet、KTH、KITTI和UCF101。此外,MOSO可以通過(guò)組合來(lái)自不同視頻的對(duì)象和場(chǎng)景產(chǎn)生逼真的視頻。
https://github.com/iva-mzsun/MOSO
8、Text-Visual Prompting for Efficient 2D Temporal Video Grounding
本文研究了時(shí)間視頻定位(temporal video grounding,TVG)的問(wèn)題,它旨在預(yù)測(cè)由文本句子描述的時(shí)刻在視頻中的起始/結(jié)束時(shí)間點(diǎn)。由于精細(xì)3D視覺(jué)特征優(yōu)勢(shì),TVG在近年來(lái)取得明顯進(jìn)展。然而,3D卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的高復(fù)雜性耗時(shí),需大量的存儲(chǔ)和計(jì)算資源。
為了實(shí)現(xiàn)高效的TVG,提出一種新的文本-視覺(jué)提示(TVP)框架,將優(yōu)化的擾動(dòng)模式(optimized perturbation patterns,稱之為“prompts”)并入TVG模型的視覺(jué)輸入和文本特征中。與3D CNN相比,TVP有效地在2D TVG模型中共同訓(xùn)練視覺(jué)編碼器和語(yǔ)言編碼器,并使用低復(fù)雜度的稀疏2D視覺(jué)特征來(lái)提高跨模態(tài)特征融合的性能。此外,提出了一種用于有效學(xué)習(xí)TVG的時(shí)間距離IoU(TDIoU)損失?;贑harades-STA和ActivityNet Captions數(shù)據(jù)集的實(shí)驗(yàn)證明,TVP顯著提升了2D TVG的性能(如Charades-STA上的9.79%改進(jìn)和ActivityNet Captions上的30.77%改進(jìn)),且用3D視覺(jué)特征進(jìn)行TVG相比,推斷加速達(dá)到5倍。
https://github.com/intel
9、Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers
Autoregressive transformer在視頻生成方面表現(xiàn)出色。然而,受到自注意力的二次復(fù)雜性限制,不能直接學(xué)習(xí)視頻中的長(zhǎng)期依賴性,并且由于自回歸過(guò)程而受到慢速推理時(shí)間和誤差傳播影響。
本文提出一種記憶效率的雙向transformer(Memory-efficient Bidirectional Transformer,MeBT),用于端到端學(xué)習(xí)視頻中的長(zhǎng)期依賴性和快速推理?;谧钚逻M(jìn)展,方法學(xué)習(xí)從部分觀察到的patch中并行解碼視頻的整個(gè)時(shí)空volume。在編碼和解碼方面均具有線性時(shí)間復(fù)雜度,通過(guò)將可觀察的上下文token投影到固定數(shù)目的潛在token中,并通過(guò)交叉注意力將它們條件化為編碼、解碼掩碼token。
由于線性復(fù)雜度和雙向建模,方法在質(zhì)量和速度上對(duì)適度長(zhǎng)時(shí)間內(nèi)視頻的生成比自回歸有著顯著改進(jìn)。視頻和代碼在https://sites.google.com/view/mebt-cvpr2023
10、Video Probabilistic Diffusion Models in Projected Latent Space
盡管深度生成模型取得了顯著進(jìn)展,但由于高維度和復(fù)雜的時(shí)空動(dòng)態(tài)以及大的空間變化,合成高分辨率和時(shí)間連貫的視頻仍然是一個(gè)挑戰(zhàn)。最近擴(kuò)散模型研究顯示了它們解決這一問(wèn)題的潛力,但它們面臨著計(jì)算和內(nèi)存效率問(wèn)題。
為了解決這個(gè)問(wèn)題,本文提出了一個(gè)新的視頻生成生成模型,稱為投影潛在視頻擴(kuò)散模型(PVDM),它是一個(gè)概率擴(kuò)散模型,可以在低維潛在空間中學(xué)習(xí)視頻分布,因此可以在有限的資源下高效地訓(xùn)練高分辨率視頻。具體來(lái)說(shuō),PVDM由兩個(gè)組件組成:(a)一個(gè)自編碼器,將給定的視頻投影為2D形狀的潛在向量,這些向量分解了視頻像素的復(fù)雜立方體結(jié)構(gòu);以及(b)一個(gè)擴(kuò)散模型體系結(jié)構(gòu),專門為新分解潛在空間和訓(xùn)練/采樣過(guò)程設(shè)計(jì),并使用單個(gè)模型合成任意長(zhǎng)度的視頻。流行視頻生成數(shù)據(jù)集上的實(shí)驗(yàn)證明了PVDM相對(duì)于以前的視頻合成方法的優(yōu)越性;例如,PVDM在UCF-101長(zhǎng)視頻(128幀)生成基準(zhǔn)測(cè)試中獲得了639.7的FVD得分,比先前的最優(yōu)方法提高了1773.4。
11、VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation
擴(kuò)散概率模型(DPM)通過(guò)逐步向數(shù)據(jù)添加噪聲構(gòu)建正向擴(kuò)散過(guò)程,并學(xué)習(xí)反向去噪過(guò)程以生成新的樣本,已被證明可處理復(fù)雜的數(shù)據(jù)分布。盡管在圖像生成方面取得了成功,但將DPM應(yīng)用于視頻生成仍具有挑戰(zhàn),因?yàn)樗媾R高維度的數(shù)據(jù)空間。以前的方法通常采用標(biāo)準(zhǔn)擴(kuò)散過(guò)程,在其中同一視頻中的幀使用獨(dú)立的噪聲進(jìn)行破壞,忽略了內(nèi)容冗余和時(shí)間相關(guān)性。
本文通過(guò)將每幀噪聲解決為在所有幀之間共享的基礎(chǔ)噪聲和沿時(shí)間軸變化的殘余噪聲,提出了一個(gè)分解擴(kuò)散過(guò)程。去噪流程采用兩個(gè)聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò)相應(yīng)地匹配噪聲分解。各種數(shù)據(jù)集上的實(shí)驗(yàn)確認(rèn)了方法(稱為VideoFusion)在高質(zhì)量視頻生成方面超越了基于GAN和基于擴(kuò)散的替代方案。
最新最全100篇匯總!生成擴(kuò)散模型Diffusion Models
CVPR 2022 | 25+方向、最新50篇GAN論文
超110篇!CVPR 2021最全GAN論文梳理
《禮記·學(xué)記》有云:獨(dú)學(xué)而無(wú)友,則孤陋而寡聞
點(diǎn)擊一杯奶茶,成為AIGC+CV視覺(jué)的前沿弄潮兒!,加入 AI生成創(chuàng)作與計(jì)算機(jī)視覺(jué) 知識(shí)星球!