最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

最新發(fā)布!TokenFlow:一致的擴散特征用于一致的視頻編輯

2023-08-08 19:41 作者:3D視覺工坊  | 我要投稿

最近,生成式人工智能革命已經(jīng)擴展到了視頻領(lǐng)域。然而,目前最先進的視頻模型在視覺質(zhì)量和用戶對生成內(nèi)容的控制方面仍落后于圖像模型。在本文中,我們提出了一種框架,利用文本到圖像擴散模型的能力來實現(xiàn)文本驅(qū)動的視頻編輯任務(wù)。具體地,給定一個源視頻和一個目標文本提示,我們的方法生成一個高質(zhì)量的視頻,遵循目標文本,同時保留輸入視頻的空間布局和運動。我們的方法基于一個關(guān)鍵觀察:通過強制擴散特征空間上的一致性,可以獲得編輯后的視頻的一致性。我們通過根據(jù)模型中可用的幀間對應(yīng)關(guān)系顯式傳播擴散特征來實現(xiàn)這一點。因此,我們的框架不需要進行任何培訓或微調(diào),并且可以與任何現(xiàn)成的文本到圖像編輯方法配合使用。我們在多個真實世界視頻上展示了最先進的編輯結(jié)果。

作者:幸運的石頭 ?| 來源:3DCV

在公眾號「3D視覺工坊」后臺,回復「原論文」即可獲取論文pdf。

添加微信:dddvisiona,備注:2D視覺,拉你入群。文末附行業(yè)細分群。

限于篇幅,對本文的的深入思考與理解,我們發(fā)表在了「3D視覺從入門到精通」知識星球。

介紹

最近,文本到圖像模型的發(fā)展促進了圖像編輯和內(nèi)容創(chuàng)作的進展,使用戶能夠控制生成和真實圖像的各種屬性。然而,將這一令人興奮的進展擴展到視頻領(lǐng)域仍然落后。涌現(xiàn)了大量大規(guī)模的文本到視頻生成模型,展示了僅從文本描述中生成剪輯的令人印象深刻的結(jié)果。

然而,盡管在這個領(lǐng)域取得了進展,現(xiàn)有的視頻模型仍處于發(fā)展初期,受到分辨率、視頻長度或其所能表示的視頻動態(tài)復雜性的限制。在本文中,我們利用最先進的預(yù)訓練文本到圖像模型的能力,為自然視頻的文本驅(qū)動編輯任務(wù)提供支持。

具體而言,我們的目標是生成高質(zhì)量的視頻,遵循由輸入文本提示表達的目標編輯,同時保留原始視頻的空間布局和運動。利用圖像擴散模型進行視頻編輯的主要挑戰(zhàn)在于確保編輯后的內(nèi)容在所有視頻幀上保持一致性——理想情況下,3D世界中的每個物理點都會在時間上經(jīng)歷連貫的修改?;趫D像擴散模型的現(xiàn)有和并行視頻編輯方法已經(jīng)證明,通過將自注意力模塊擴展到包括多個幀可以實現(xiàn)編輯幀之間的全局外觀連貫性(例如[53,19,5,34])。

然而,這種方法無法實現(xiàn)所需的時間上連貫性水平,因為視頻中的運動只是通過注意力模塊隱含地保留。因此,專業(yè)或半專業(yè)用戶通常會采用復雜的視頻編輯流程,需要額外的手動工作。在本研究中,我們提出了一種框架來解決這個挑戰(zhàn),通過明確強制執(zhí)行原始幀間視頻對應(yīng)關(guān)系來實現(xiàn)編輯。直觀地說,自然視頻在幀之間包含冗余信息,例如呈現(xiàn)相似的外觀和共享視覺元素。我們的關(guān)鍵觀察是,在擴散模型中,視頻的內(nèi)部表示具有類似的屬性。也就是說,在RGB空間和擴散特征空間中,幀的冗余性和時間上連貫性緊密相關(guān)。基于這個觀察結(jié)果,我們方法的支柱是通過確保編輯后的視頻特征在幀之間保持一致性來實現(xiàn)一致性編輯。具體來說,我們強制要求編輯后的特征傳達與原始視頻特征相同的幀間對應(yīng)關(guān)系和冗余性。

為此,我們利用原始幀間特征對應(yīng)關(guān)系,在模型中很容易獲得。這導致了一種有效的方法,可以根據(jù)原始視頻動態(tài)直接傳播編輯后的擴散特征。這種方法使我們能夠利用最先進的圖像擴散模型的生成先驗知識,無需進行額外的培訓或微調(diào),并且可以與現(xiàn)成的基于擴散模型的圖像編輯方法(例如[29, 56, 12])配合使用。

總之,我們做出了以下關(guān)鍵貢獻:

? 一種名為TokenFlow的技術(shù),可以在擴散特征之間強制執(zhí)行語義對應(yīng)關(guān)系,從而顯著提高由文本到圖像擴散模型生成的視頻的時間上連貫性。

? 新穎的經(jīng)驗分析研究了擴散特征在整個視頻中的特性。

? 在各種各樣復雜運動展示了最先進的編輯結(jié)果。

相關(guān)工作

文本驅(qū)動的圖像和視頻合成開創(chuàng)性的研究 設(shè)計了GAN體系結(jié)構(gòu),以基于文本嵌入生成圖像[37,54]。隨著視覺語言數(shù)據(jù)集和預(yù)訓練策略的不斷擴大[35,42],在文本驅(qū)動的圖像生成能力方面取得了顯著進展。用戶可以使用簡單的文本提示來合成高質(zhì)量的視覺內(nèi)容。許多這方面的進展也歸功于擴散模型[47,8,9,14,31],這些模型已經(jīng)被證明是最先進的文本到圖像生成器[30,41,36,38,44,2]。這樣的模型已經(jīng)擴展到文本到視頻生成,通過將2D體系結(jié)構(gòu)擴展到時間維度(例如使用時間注意力[15])并在視頻數(shù)據(jù)集上進行大規(guī)模訓練[13,46]。

最近,Gen-1 [10]為視頻編輯任務(wù)量身定制了擴散模型體系結(jié)構(gòu),通過在網(wǎng)絡(luò)上進行結(jié)構(gòu)/外觀表示來調(diào)整網(wǎng)絡(luò)。然而,由于它們的計算和內(nèi)存需求巨大,現(xiàn)有的視頻擴散模型仍處于萌芽階段,局限于短片,或者與圖像模型相比具有較低的視覺質(zhì)量。在另一方面的光譜上,最近有一個有前途的趨勢,即利用預(yù)訓練的圖像擴散模型進行視頻合成任務(wù),無需進行額外的訓練[11,53,23,34]。我們的工作屬于這一類別,利用預(yù)訓練的文本到圖像擴散模型進行視頻編輯任務(wù),無需任何訓練或微調(diào)。

一致的視頻風格化一種常見的方法是在幀級別應(yīng)用圖像編輯技術(shù)(例如樣式轉(zhuǎn)移),然后進行后處理以解決結(jié)果視頻中的時間不一致性[21,25,24]。雖然這些方法有效地減少了高頻時間閃爍,但它們并不適用于呈現(xiàn)實質(zhì)性變化的幀,這種變化通常發(fā)生在應(yīng)用基于文本的圖像編輯技術(shù)時[34]。Kasten等人[18]提出將視頻分解為一組2D圖集,每個圖集在整個視頻中提供了背景或前景對象的統(tǒng)一表示。應(yīng)用于2D圖集的編輯會自動映射回視頻,從而以最小的努力實現(xiàn)時間一致性。

目前工坊已經(jīng)建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向,細分群包括:[工業(yè)方向]三維點云、結(jié)構(gòu)光、機械臂、缺陷檢測、三維測量、TOF、相機標定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機器人導航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達|視覺攝像頭傳感器討論群、多傳感器標定、自動駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學校|公司, 小助理會拉你入群。

但是,這種方法在表示能力方面有限,并需要長時間的訓練,兩者都限制了該技術(shù)的適用性。我們的工作也與經(jīng)典作品有關(guān),這些作品證明自然視頻中小補丁在幀之間廣泛重復[43,7],因此可以通過編輯一組關(guān)鍵幀并使用手工制作特征和光流建立補丁對應(yīng)關(guān)系(例如[40])或通過訓練基于補丁的GAN [50]來傳播編輯并跨越視頻。然而,這種傳播方法難以處理具有光照變化或具有復雜動態(tài)的視頻,并且只能作為后處理。我們的工作與這種方法具有相似的動機,可以從自然視頻中受益于時間冗余。我們展示了這種冗余在文本到圖像擴散模型的特征空間中也存在,并利用這種屬性來實現(xiàn)一致性。

通過擴散特征操作實現(xiàn)控制生成

最近,涌現(xiàn)了大量工作表明,通過對擴散網(wǎng)絡(luò)的中間特征表示執(zhí)行簡單操作[6,16,28,51,12,32,4],可以輕松地將文本到圖像擴散模型適應(yīng)各種編輯和生成任務(wù)。同時進行語義外觀交換的并發(fā)作品(使用擴散特征對應(yīng)關(guān)系[27,55])。Prompt-to-Prompt[12]觀察到通過操縱交叉注意力層,可以控制圖像空間布局與文本中每個單詞之間的關(guān)系。Plug-and-Play Diffusion (PnP)[51]分析了空間特征和自我注意映射,并發(fā)現(xiàn)它們以高空間粒度捕獲語義信息。Tune-A-Video[53]觀察到通過將自我注意擴展到不止一個幀,可以生成具有共同全局外觀的幀。并發(fā)作品[34、5、20、45、26]利用這個屬性來實現(xiàn)全局一致性視頻編輯。然而,如第5節(jié)所示,擴大自我注意力模塊不足以實現(xiàn)精細的時間一致性。先前和同時進行的工作要么犧牲視覺質(zhì)量,要么表現(xiàn)出有限的時間一致性。在這項工作中,我們還通過對預(yù)訓練文本到圖像模型的特征空間進行簡單操作來執(zhí)行視頻編輯。然而,我們不僅僅依賴于自我注意力膨脹,而是通過TokenFlow明確地鼓勵模型特征在時間上保持一致。

前提條件

擴散模型擴散概率模型(DPM)[47、8、9、14、31]是一類生成模型,旨在通過漸進去噪過程逼近數(shù)據(jù)分布q。從高斯獨立同分布噪聲圖像xT ~ N(0,I)開始,擴散模型逐漸去噪,直到達到從目標分布q中抽取的干凈圖像x0。DPM可以通過納入額外的引導信號(例如文本條件)來學習條件分布。Song等人[48]推導了DDIM,一種在給定初始噪聲xT的情況下的確定性采樣算法。通過在反向順序(即DDIM反演)中應(yīng)用此算法,從干凈的x0開始,可以獲得用于生成它的中間噪聲圖像{x_i}_T^t=1。

穩(wěn)定擴散穩(wěn)定擴散(SD)[38]是一種在潛在圖像空間中操作的重要文本到圖像擴散模型。預(yù)訓練編碼器將RGB圖像映射到該空間,解碼器將潛變量解碼回高分辨率圖像。更詳細地說,SD基于U-Net架構(gòu)[39],它包括殘差、自我注意和交叉注意塊。殘差塊卷積來自前一層的激活,而交叉注意根據(jù)文本提示操縱特征。在自我注意塊中,特征被投影到查詢Q、鍵K和值V中。塊的輸出由以下公式給出:A·V ? ? ? ? ?其中A = Attention(Q; K) ? ? ? ? ? ? ? ? ? ? ?(1) Attention操作[52]計算d維投影Q、V之間的親和度。形式上, Attention(Q; K) = Softmax(QK^T/√d!) ? ? ? ? ? ? ? ? (2)

方法

給定一個輸入視頻 I=[I1,...,In] 和一個描述目標編輯的文本提示 P,我們的目標是生成一個編輯后的視頻 J=[J1,...,Jn],它遵循文本 P,同時保留 I 的原始運動和語義布局。為了實現(xiàn)這一目標,我們的框架利用了一個預(yù)訓練和固定的文本到圖像擴散模型 εθ。Na?vely地利用 εθ 進行視頻編輯,通過獨立地在每個幀上應(yīng)用圖像編輯方法(例如 [12, 51, 29, 56])會導致幀之間的內(nèi)容不一致(例如圖2中間列)。我們的關(guān)鍵發(fā)現(xiàn)是,在編輯過程中通過在幀之間的內(nèi)部擴散特征之間強制保持一致性,可以減輕這些不一致性。

自然視頻通常描繪了隨時間連貫且共享的內(nèi)容。我們觀察到,自然視頻在 εθ 中的內(nèi)部表示具有類似的性質(zhì)。這在圖2中得到了說明,我們可視化給定視頻(第一列)提取的特征。如圖所示,這些特征描繪了跨幀共享和一致的表示,即相應(yīng)區(qū)域顯示出類似的表示。我們進一步觀察到,原始視頻特征提供了幀之間的細粒度對應(yīng)關(guān)系,使用簡單的最近鄰搜索(圖3)。此外,我們展示了這些相應(yīng)特征對于擴散模型是可互換的 - 我們可以通過將其特征與附近幀中的相應(yīng)特征進行交換來忠實地合成一個幀(圖3(a))。然而,當每個幀獨立應(yīng)用編輯時,特征的一致性就會破壞(圖2中間列)。這意味著 RGB 空間中的一致性水平與幀的內(nèi)部特征的一致性相關(guān)。因此,我們的關(guān)鍵思想是操縱編輯視頻的特征,以保留原始視頻特征的一致性水平和幀間對應(yīng)關(guān)系。

如圖4所示,我們的框架名為 TokenFlow,在每個生成時間步長之間交替使用兩個主要組件:(i) 采樣一組關(guān)鍵幀,并根據(jù) P 共同編輯它們;此階段導致關(guān)鍵幀之間共享全局外觀;和 (ii) 基于原始視頻特征提供的對應(yīng)關(guān)系將來自關(guān)鍵幀的特征傳播到所有幀;此階段顯式保留原始視頻特征的一致性和細粒度共享表示。兩個階段都與圖像編輯技術(shù) ε?θ(例如 [51])結(jié)合使用。直觀地說,交替進行關(guān)鍵幀編輯和傳播的好處是雙重的:首先,在每個生成步驟中隨機采樣關(guān)鍵幀可以增加對特定選擇的魯棒性。其次,由于每個生成步驟都會產(chǎn)生更加一致的特征,因此下一步中采樣的關(guān)鍵幀將更加一致地進行編輯。

預(yù)處理:提取擴散特征給定輸入視頻 I,我們在每個幀 Ii 上應(yīng)用 DDIM 反演(見第3節(jié)),得到一個潛變量序列 [xi1,...,xiT]。對于每個生成時間步 t,我們將每個幀 i∈[n] 的潛變量 xit 饋送到模型中,并從網(wǎng)絡(luò)εθ 的每個層中提取自我注意模塊的 tokens φ(xit)。稍后我們將使用這些 tokens 來建立擴散特征之間的幀間對應(yīng)關(guān)系。

關(guān)鍵幀采樣和聯(lián)合編輯我們的觀察結(jié)果表明,給定單個編輯幀的特征,我們可以通過將其特征傳播到相應(yīng)位置來生成下一個幀。然而,大多數(shù)視頻不能由單個關(guān)鍵幀表示。為了解決這個問題,我們考慮多個關(guān)鍵幀,從中獲取一組特征(令牌)Tbase,稍后將其傳播到整個視頻。具體來說,在每個生成步驟中,我們在固定的幀間隔(詳見 SM)中隨機選擇一組關(guān)鍵幀 {Ji}i∈κ。我們通過擴展自注意力塊以同時處理它們 [53] 來聯(lián)合編輯關(guān)鍵幀,并鼓勵它們共享全局外觀。更詳細地說,修改后的塊的輸入是所有關(guān)鍵幀的自注意特征 {Qi}i∈κ,{Ki}i∈κ,{Vi}i∈κ。其中 Qi,Ki,Vi 是第 i 個關(guān)鍵幀的查詢、鍵和值。所有幀的鍵被連接起來,并計算擴展自注意力:ExtAttn(Qi; [Ki1, ..., Ki k]) = Softmax(QiKi1, ..., Ki kT/√d!) (3) 第 i 幀塊的輸出如下:? ? ? ? ? ? ? ? ? ? φ(Ji) = ?A · [Vi1, ..., Vi k] 其中 ? ? ? ? ? ? ? ? ? ? ??A = ExtAttn(Qi; [Ki1, ..., Ki k]) ? ? ? ? ? ? ? ? (4)

我們定義 Tbase = {φ(Ji)}i∈κ,對于網(wǎng)絡(luò)中的每個層(圖 4 左下角)。直觀地說,每個關(guān)鍵幀都查詢所有其他關(guān)鍵幀,并從它們聚合信息。這導致編輯后的幀具有大致統(tǒng)一的外觀 [53, 19, 5, 34]。通過 TokenFlow 進行編輯傳播

給定 Tbase,我們基于從原始視頻中提取的令牌對應(yīng)關(guān)系將其傳播到整個視頻。在每個生成步驟 t 中,我們計算每個原始幀的令牌的最近鄰(NN)φ(xi t)及其兩個相鄰關(guān)鍵幀的令牌φ(xi+t)和φ(xi?t),其中i+是最接近的未來關(guān)鍵幀的索引,i?是最接近的過去關(guān)鍵幀的索引。記結(jié)果的 NN 字段為γi+,γi?:γi±[p]=argminqD(φ(xi)[p],φ(xi±)[q]) ? (5)

其中p,q是令牌特征圖中的空間位置,D是余弦距離。為簡單起見,我們省略了生成時間步長t的符號;我們的方法在所有時間步長和自注意層中應(yīng)用。一旦我們獲得γ±,我們使用它將編輯后的幀的令牌Tbase傳播到整個視頻中,方法是線性組合Tbase中對應(yīng)于每個空間位置p和幀i的令牌:Fγ(Tbase,i,p)=wi·φ(Ji+)[γi+[p]]+(1?wi)·φ(Ji?)[γi?[p]] ? (6)

其中φ(Ji±)∈Tbase,wi∈(0,1)是一個標量,與幀i及其相鄰關(guān)鍵幀之間的距離成比例(見SM),確保平滑過渡。

注意,F(xiàn)也修改了采樣的關(guān)鍵幀的令牌。也就是說,我們修改了自注意塊的輸出,以輸出Tbase中令牌的線性組合。

整體算法

我們在算法1中總結(jié)了視頻編輯算法:首先對輸入視頻I執(zhí)行DDIM反演,并提取所有幀i∈[n]的噪聲潛變量序列{xit}Tt=1(圖4,頂部)。然后我們進行去噪操作,交替進行關(guān)鍵幀編輯和TokenFlow傳播:在每個生成步驟t中,我們隨機選擇k<n個關(guān)鍵幀索引,并使用圖像編輯技術(shù)(例如[51,29])結(jié)合擴展自注意(Eq. 4,F(xiàn)ig. 4(I))對其進行去噪。然后我們使用TokenFlow(Eq. 6,F(xiàn)ig. 4(II))對整個視頻Jt進行去噪,在網(wǎng)絡(luò)的每個自注意塊的每個層中都進行操作。請注意,每個層包括自注意塊輸入和輸出之間的殘差連接,因此在每個層執(zhí)行TokenFlow是必要的。

結(jié)果

我們在 DAVIS 視頻 [33] 和互聯(lián)網(wǎng)視頻上評估了我們的方法,這些視頻展示了動物、食物、人類和各種運動物體。

視頻的空間分辨率為384×672或512×512像素,由40到200幀組成。我們在每個視頻上使用各種文本提示,以獲得不同的編輯結(jié)果。我們的評估數(shù)據(jù)集包括61個文本-視頻對。我們使用 PnP-Diffusion [51] 作為幀編輯方法,并對所有結(jié)果使用相同的超參數(shù)。由于 DDIM 反演不準確,PnP-Diffusion 可能無法準確保留每個幀的結(jié)構(gòu)(見圖2中間列右側(cè)幀:狗的頭部變形)。我們的方法提高了對此的魯棒性,因為它可以更好地保留幀的結(jié)構(gòu)。

算法1中,我們提出了基于 TokenFlow 的編輯方法。我們的框架可以與任何準確保留圖像結(jié)構(gòu)的擴散式圖像編輯技術(shù)結(jié)合使用;SM中提供了使用不同圖像編輯技術(shù)(例如[29])的結(jié)果和實現(xiàn)細節(jié)。圖5和圖1顯示了編輯視頻的示例幀。我們的編輯在時間上保持一致,并遵循編輯提示。男子的頭部被改變?yōu)殍蟾呋虼罄硎ㄗ笊辖牵?;重要的是,男子的身份和場景的背景在整個視頻中保持一致。多邊形狼的圖案(左下角)在時間上保持一致:身體始終是橙色,而胸部是藍色。更多視頻示例請參見SM。

基準方法我們將我們的方法與最先進的并行工作進行比較,包括:

(i) Text2Video-Zero [19]:該方法利用ControlNet [56]進行視頻編輯,使用自注意力膨脹(self-attention inflation)技術(shù)。

(ii) Tune-a-Video [53]:該方法在給定的測試視頻上對文本到圖像模型進行微調(diào)。

(iii) Gen-1 [10]:這是一個基于視頻擴散的模型,它是在大規(guī)模圖像和視頻數(shù)據(jù)集上訓練得到的。

(iv) Text2LIVE [1]:該方法利用分層視頻表示(NLA)[18],并使用CLIP損失進行測試時訓練。需要注意的是,NLA需要前景/背景分離掩模,并且訓練需要約10小時。因此,我們在DAVIS視頻上與它們進行比較,因為有一個可用的NLA模型。

此外,我們還考慮了以下兩個基準:

(i) Per-frame擴散式圖像編輯基線,PnP-Diffusion [51]。

(ii) 對單個關(guān)鍵幀應(yīng)用PnP-Diffusion,并使用[17]將編輯傳播到整個視頻。

定性評估

圖6提供了我們的方法與四個突出的基準方法的定性比較;請參閱SM獲取完整的視頻。我們的方法(底行)輸出的視頻更好地符合編輯提示,同時保持編輯后視頻的時間一致性,而其他方法則在滿足這兩個目標上存在困難。Tune-A-Video [53](第二行)將2D圖像模型擴展成視頻模型,并對其進行微調(diào),以過擬合視頻的運動;因此,適用于短片。對于長視頻,它難以捕捉運動,導致無意義的編輯,例如發(fā)光的金屬雕塑。獨立地對每一幀應(yīng)用PnP-Diffusion(第三行)會產(chǎn)生與編輯提示完美匹配的精美編輯,但是如預(yù)期的那樣,缺乏任何時間一致性。Gen-1 [10]的結(jié)果(第四行)也存在一些時間不一致性(折紙鸛的嘴巴變色);此外,其幀質(zhì)量顯著較差于文本到圖像擴散模型。Text2Video-Zero [19]的編輯結(jié)果(第五行)出現(xiàn)嚴重的抖動,因為該方法在很大程度上依賴擴展的注意力機制來隱式地鼓勵一致性。

圖7展示了我們的方法與Text2LIVE [1]以及使用[51]對單個關(guān)鍵幀進行編輯并使用[17]將編輯傳播到視頻其余部分的額外定性比較。Text2LIVE缺乏強大的生成先驗,因此,如第3行所示,其視覺質(zhì)量有限。此外,該方法依賴于視頻的分層表示([18]),訓練需要約10小時,并且僅適用于具有簡單運動的視頻。使用[17]來傳播編輯在不接近編輯關(guān)鍵幀的幀上產(chǎn)生傳播偽影(第2行)。

定量評估

我們從以下幾個方面評估我們的方法:(i) 編輯保真度,通過計算每個編輯幀的CLIP嵌入[35]與目標文本提示之間的平均相似性來衡量;(ii) 時間一致性。按照[5, 22]的方法,時間一致性通過計算原始視頻的光流(使用[49])并根據(jù)光流對編輯后的幀進行變形,然后測量變形誤差來衡量。

表1對比了我們的方法與基準方法。我們的方法實現(xiàn)了最高的CLIP分數(shù),顯示編輯后的視頻與輸入指導提示之間的良好匹配。此外,我們的方法具有最低的變形誤差,表明結(jié)果在時間上是一致的。

此外,我們還考慮了通過將原始視頻通過LDM自編碼器進行傳遞的參考基準方法(LDM recon.)而不進行編輯。這個基準方法提供了LDM自編碼器能夠達到的時間一致性的上限。正如預(yù)期的那樣,這個基準方法的CLIP相似性很差,因為它不涉及任何編輯。然而,這個基準方法也沒有實現(xiàn)零變形誤差,因為LDM自編碼器的不完美重建導致了高頻信息的虛構(gòu)。

消融研究

我們對我們的框架進行了主要設(shè)計選擇的消融實驗。

首先,我們消融了用于強制時間一致性的TokenFlow(第4.2節(jié))(w/o TokenFlow)。在這個實驗中,我們將TokenFlow替換為擴展的注意力(Eq. 4),并在編輯后的視頻的所有幀之間計算它。需要注意的是,這個操作在計算上是很耗費資源的,并且隨著視頻的持續(xù)時間增加,計算復雜度會變得很高。其次,我們消融了在每個生成步驟中隨機選擇關(guān)鍵幀的操作(w/o random keyframes)。在這個實驗中,我們在生成過程中使用相同的關(guān)鍵幀索引(在時間上均勻分布)。

此外,固定關(guān)鍵幀會將視頻人為地劃分為在固定關(guān)鍵幀之間的短片。這種劃分對結(jié)果的時間一致性產(chǎn)生了負面影響,如較高的變形誤差所示。這個效果可以在SM中的消融視頻中看到。

討論

我們提出了一種新的基于圖像擴散模型的文本驅(qū)動視頻編輯框架。我們研究了視頻在擴散特征空間中的內(nèi)部表示,并證明通過在生成過程中保持一致的擴散特征表示可以實現(xiàn)一致的視頻編輯。我們的方法優(yōu)于現(xiàn)有的基準方法,在時間一致性方面取得了顯著改進。然而,我們的方法專門用于保留原始視頻的運動,因此無法處理需要結(jié)構(gòu)變化的編輯(如圖8所示)。此外,我們的方法建立在基于擴散的圖像編輯技術(shù)之上,以允許原始幀結(jié)構(gòu)的保留。當圖像編輯技術(shù)無法保留結(jié)構(gòu)時,我們的方法會強制應(yīng)用在編輯幀中毫無意義的對應(yīng)關(guān)系,從而導致視覺偽影。最后,LDM解碼器引入了一些高頻閃爍[3]。對于這個問題,可能的解決方案是將我們的框架與改進的解碼器相結(jié)合(例如[3],[57])。

我們注意到,這種輕微的閃爍可以通過現(xiàn)有的后處理去閃爍方法輕松消除(見SM)。我們的工作為擴散模型空間中自然視頻的內(nèi)部表示(例如時間冗余)提供了新的見解,以及如何利用它們來增強視頻合成。我們相信這將激發(fā)未來在利用圖像模型進行視頻任務(wù)和設(shè)計文本到視頻模型方面的研究。

最新發(fā)布!TokenFlow:一致的擴散特征用于一致的視頻編輯的評論 (共 條)

分享到微博請遵守國家法律
教育| 陆良县| 浦北县| 富裕县| 林芝县| 昂仁县| 东光县| 鄂伦春自治旗| 宁城县| 舞阳县| 当阳市| 德江县| 克什克腾旗| 保德县| 沙河市| 南宫市| 洛浦县| 和田县| 顺义区| 彭州市| 四川省| 伽师县| 大邑县| 兰州市| 奉化市| 武清区| 谷城县| 鹿泉市| 得荣县| 安福县| 运城市| 磐安县| 兴业县| 屏南县| 扎兰屯市| 霍州市| 铁岭县| 临清市| 赫章县| 安陆市| 吉水县|