DragGAN應(yīng)運(yùn)而生,未來在4G視頻上都可能利用拖拽式編輯
原創(chuàng) | 文 BFT機(jī)器人
2023年8月14日-15日,第七屆GAIR全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店成功舉辦。
在「AIGC 和生成式內(nèi)容」分論壇上,南洋理工大學(xué)科學(xué)與工程學(xué)院助理教授潘新鋼以《Interacitve Point-Dragging Manipulation of Visual Contents》為主題分享了點(diǎn)拖拽的交互式編輯方向研究成果——DragGAN

潘新鋼指出,當(dāng)下用戶對(duì)圖像的創(chuàng)作不只停留于粗粒度編輯,而是期待對(duì)圖像空間屬性進(jìn)行精細(xì)化控制。針對(duì)這一需求,DragGAN應(yīng)運(yùn)而生。通過DragGAN,用戶可以選擇性地指定一塊可編輯區(qū)域,確定A、B兩點(diǎn),然后自如地將點(diǎn)A移動(dòng)到點(diǎn) B 的位置。
更重要的是,DragGAN能夠呈現(xiàn)的不僅僅是最終編輯完成后的圖片,而是整個(gè)中間過渡的過程,即一個(gè)視頻或動(dòng)畫的效果,豐富了其可應(yīng)用場(chǎng)景。
DragGAN這樣一個(gè)關(guān)鍵點(diǎn)拖拽式的編輯工具對(duì)目前大熱的文生圖的生成方式提供了一個(gè)非常好的補(bǔ)充,一經(jīng)公布就得到了很多的關(guān)注和應(yīng)用。
圖像合成中我們遺漏了什么?

雖然生成式AI已經(jīng)能夠非常好地根據(jù)文字生成圖片,但是實(shí)現(xiàn)更高級(jí)的圖像微調(diào)仍然面臨挑戰(zhàn)。比如,我們可以把一段話術(shù)輸入到Midjourney或者Stable Diffusion中,讓它生成一個(gè)逼真的獅子。但是很多時(shí)候,創(chuàng)作的過程并不會(huì)在這里結(jié)束。
文字對(duì)圖像的描述只是粗粒度的,用戶更多的希望繼續(xù)細(xì)粒度的去微調(diào)圖像的內(nèi)容,例如去改變所生成內(nèi)容的姿態(tài)、轉(zhuǎn)動(dòng)獅子的頭、增大或縮小物體的大小、移動(dòng)物體的位置、甚至改變獅子的表情。這一系列操作都是關(guān)于物體空間屬性的精細(xì)控制,如何對(duì)這些屬性進(jìn)行精細(xì)控制仍然面臨比較大的挑戰(zhàn)。
為了實(shí)現(xiàn)更精細(xì)的圖像微調(diào),用戶需要提供更加詳細(xì)和準(zhǔn)確的信息描述,包括對(duì)圖像中每個(gè)物體的具體位置、大小、姿態(tài)、紋理和顏色等屬性進(jìn)行描述。這些信息對(duì)于生成更加逼真和精確的圖像來說非常重要。
然而,要實(shí)現(xiàn)高質(zhì)量的圖像微調(diào)并不是一件容易的事情。需要大量的數(shù)據(jù)和算法訓(xùn)練來提高生成器模型的精度和效果,而且還需要開發(fā)更加智能和自適應(yīng)的算法來處理不同類型的輸入文本。除此之外,還需要考慮如何在生成過程中保護(hù)知識(shí)產(chǎn)權(quán)和隱私,避免侵權(quán)行為的發(fā)生。
我們應(yīng)該如何控制空間屬性?

為了實(shí)現(xiàn)對(duì)物體空間屬性的精細(xì)控制,我們可以通過沿襲文生圖的方法,根據(jù)文字的描述編輯圖片。目前,學(xué)術(shù)界已經(jīng)有一些根據(jù)文字來改變圖片內(nèi)容的方法,例如讓獅子的鼻子向右移動(dòng)30像素。但是,這種編輯方式存在一些問題。首先,這種文字編輯需要文本模型的支持,以便理解所有可能的物體空間屬性編輯方式。除了向右移動(dòng)之外,還有許多其他方法可以進(jìn)行編輯。其次,對(duì)于語(yǔ)言模型來說,它實(shí)際上很難理解30個(gè)像素在當(dāng)前圖像中的精確長(zhǎng)度。因此,對(duì)于目前的文生圖語(yǔ)言來說,精確編輯仍然是一個(gè)較大的挑戰(zhàn)。
什么是交互式點(diǎn)拖動(dòng)?

用戶可以通過點(diǎn)擊兩個(gè)關(guān)鍵點(diǎn)來調(diào)整圖像的空間屬性,將紅點(diǎn)所代表的圖像語(yǔ)義部分移動(dòng)到藍(lán)點(diǎn)處,實(shí)現(xiàn)對(duì)圖像空間屬性的編輯。
這種方式具有以下幾個(gè)優(yōu)點(diǎn):首先,它非常簡(jiǎn)單易用,只需要兩個(gè)點(diǎn)的坐標(biāo)信息;其次,用戶可以精確指定抓取點(diǎn)和目標(biāo)點(diǎn)的位置和距離,從而實(shí)現(xiàn)高度精確的編輯和調(diào)整;最后,它非常靈活,可以應(yīng)用于各種不同的圖像編輯場(chǎng)景,例如改變圖像的大小、姿態(tài)、位置等。
點(diǎn)交拖拽的交互式編輯方向的成果——DragGAN

可以看到,用戶可以選擇性地指定一塊可編輯區(qū)域,然后通過指定紅點(diǎn)和藍(lán)點(diǎn),算法會(huì)將紅點(diǎn)移到藍(lán)點(diǎn)的位置。并且值得一提的是,所得到的并不僅僅是最終編輯完成后的圖片,而是整個(gè)中間過渡的過程。所以,最終呈現(xiàn)出來的是視頻或動(dòng)畫的效果,這對(duì)于視頻或者動(dòng)畫方向來說也具有一定的應(yīng)用場(chǎng)景。
作者?| 居居手
排版 | 春花
審核 | 貓
若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。想要了解更多資訊,請(qǐng)關(guān)注BFT智能機(jī)器人系統(tǒng)~