動(dòng)動(dòng)嘴,AI幫你做視頻后期|Rerender—開源版Gen2來了!

論文:https://arxiv.org/abs/2306.07954
項(xiàng)目地址:https://anonymous-31415926.github.io/
推友**balconychy**對(duì)論文的解讀(類似ebsynth的原理):
- 直觀的理解就是插值。 每一幀單獨(dú)的跑SD不是閃爍嗎?那我就不跑每幀,隔K幀選擇關(guān)鍵幀跑。 關(guān)鍵幀之間的圖像,就用風(fēng)格化后的圖像,利用光流的方式向后貼圖;這樣貼到底K幀可能不一致了,于是,從第K幀反向再來一把,然后把兩個(gè)融合,過渡就自然了
- Rerender 能實(shí)現(xiàn)視頻全局形狀、紋理和顏色的連貫性,有效減少了外觀偏離和畫面閃爍
- 這個(gè)框架由兩部分組成:關(guān)鍵幀翻譯和完整視頻翻譯。
- 在第一部分,Rerender使用了改進(jìn)的擴(kuò)散模型來生成關(guān)鍵幀,同時(shí)應(yīng)用層次交叉幀約束以確保在形狀、紋理和顏色上的連貫性。
- 在第二部分,我們通過時(shí)間感知補(bǔ)丁匹配和幀混合,將這些關(guān)鍵幀傳播到其他幀中。這個(gè)過程實(shí)現(xiàn)了全局風(fēng)格和局部紋理的時(shí)序一致性,并且無需重新訓(xùn)練或優(yōu)化
標(biāo)簽: