GitHub趨勢榜第一!螞蟻技術(shù)研究院強開源視頻處理技術(shù)CoDeF
作者:孫妍 來源:IT時報
近日,在全球開源平臺GitHub上的一項視頻處理領(lǐng)域的研究成果熱度飆升,發(fā)布僅一周時間就在GitHub流行趨勢榜單上的Python語言分類中沖到了第一。這就是由螞蟻技術(shù)研究院交互智能實驗室打造的最新視頻處理算法CoDeF,一項真實時、強細節(jié)、高保真的視頻處理技術(shù),用于完成視頻風(fēng)格遷移任務(wù)。

實驗表明,CoDeF技術(shù)能夠毫不費力地將圖像風(fēng)格化算法升級為視頻風(fēng)格化算法,將圖像關(guān)鍵點檢測算法升級為視頻關(guān)鍵點跟蹤算法(甚至包括水和煙霧等非剛性物體的追蹤),將圖像語義分割算法升級為視頻物體跟蹤算法,將圖像超分算法升級為視頻超分算法,同時支持用戶可交互的視頻內(nèi)容編輯。
近年來,隨著以圖像生成、圖像編輯等任務(wù)為代表的視覺內(nèi)容生成領(lǐng)域取得突破性進展,視覺生成正向著視頻方向發(fā)展。特別是真實應(yīng)用場景下,人們對視頻的實時性、流暢性、保真度等方面提出了更高要求。目前的主流算法多受限于生成視頻時序一致性較差的問題,導(dǎo)致其生成效果無法直接在真實場景中應(yīng)用。
為了解決這一問題,螞蟻技術(shù)研究院的研究員們提出了一種全新的解決思路——將視頻處理簡化為圖像處理。具體來說,將視頻表示為一個2D內(nèi)容規(guī)范場(canonical content field)和一個3D時間形變場(temporal deformation field),其中內(nèi)容規(guī)范場負責整合一段視頻中包含的所有紋理信息,而時間形變場則負責建模視頻里的動態(tài)信息。換言之,每一幀視頻都利用這個形變場對內(nèi)容規(guī)范場所編碼的規(guī)范圖像(canonical image)進行變形,就可以恢復(fù)出該幀圖像?;谶@種表征技術(shù),視頻處理任務(wù)可以簡化為圖像處理任務(wù),用戶只需要處理每個視頻對應(yīng)的靜態(tài)規(guī)范圖像,然后通過形變場的變換,就可以將圖像處理結(jié)果自然地沿著時間維度進行傳播,達到對整個視頻處理的目的,也因此保證了高度的時序一致性。值得一提的是,研究者們設(shè)法盡量降低規(guī)范圖像和真實圖像的域差(domain gap),使得現(xiàn)有的圖像算法可以不加任何訓(xùn)練地應(yīng)用到規(guī)范圖像上,完成視頻處理。

該技術(shù)在GitHub發(fā)布并開源后,不僅在技術(shù)圈影響廣泛,在Twitter平臺也“火”出了圈。不少Twitter網(wǎng)友直呼“不敢相信!”“這是一個巨大的飛躍!”“只需給它一年時間,就能被用在電影制作上了”。
據(jù)悉,這項技術(shù)是由螞蟻集團技術(shù)研究院交互智能實驗室歷時三個月時間完成。項目主要負責人是螞蟻技術(shù)研究院交互智能實驗室研究員沈宇軍,其主要研究方向為計算機視覺和深度學(xué)習(xí)。項目的另外三位主要作者分別為香港科技大學(xué)的博士生歐陽豪、螞蟻技術(shù)研究院的王秋雨和浙江大學(xué)的博士生肖宇曦,其中第一名和第三名參與者當下為螞蟻集團的研究型實習(xí)生。
自2021年成立以來,螞蟻技術(shù)研究院一直推進關(guān)鍵核心技術(shù)攻關(guān),交互智能實驗室主要聚焦計算機視覺和自然語言處理方向的基礎(chǔ)模型研究,開發(fā)通用人工智能算法架構(gòu),包括內(nèi)容生成、多模態(tài)理解、數(shù)字化、人機交互等關(guān)鍵技術(shù)。