散文網(wǎng) » 科技 »學(xué)習(xí) » DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯

2023-09-07 14:45 作者:BFT白芙堂機(jī)器人 0人讀過 | 我要投稿

原創(chuàng) | 文 BFT機(jī)器人

2023年8月14日-15日，第七屆GAIR全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店成功舉辦。
在「AIGC 和生成式內(nèi)容」分論壇上，南洋理工大學(xué)科學(xué)與工程學(xué)院助理教授潘新鋼以《Interacitve Point-Dragging Manipulation of Visual Contents》為主題分享了點(diǎn)拖拽的交互式編輯方向研究成果——DragGAN

潘新鋼指出，當(dāng)下用戶對(duì)圖像的創(chuàng)作不只停留于粗粒度編輯，而是期待對(duì)圖像空間屬性進(jìn)行精細(xì)化控制。針對(duì)這一需求，DragGAN應(yīng)運(yùn)而生。通過DragGAN，用戶可以選擇性地指定一塊可編輯區(qū)域，確定A、B兩點(diǎn)，然后自如地將點(diǎn)A移動(dòng)到點(diǎn) B 的位置。

更重要的是，DragGAN能夠呈現(xiàn)的不僅僅是最終編輯完成后的圖片，而是整個(gè)中間過渡的過程，即一個(gè)視頻或動(dòng)畫的效果，豐富了其可應(yīng)用場(chǎng)景。

DragGAN這樣一個(gè)關(guān)鍵點(diǎn)拖拽式的編輯工具對(duì)目前大熱的文生圖的生成方式提供了一個(gè)非常好的補(bǔ)充，一經(jīng)公布就得到了很多的關(guān)注和應(yīng)用。

圖像合成中我們遺漏了什么？

雖然生成式AI已經(jīng)能夠非常好地根據(jù)文字生成圖片，但是實(shí)現(xiàn)更高級(jí)的圖像微調(diào)仍然面臨挑戰(zhàn)。比如，我們可以把一段話術(shù)輸入到Midjourney或者Stable Diffusion中，讓它生成一個(gè)逼真的獅子。但是很多時(shí)候，創(chuàng)作的過程并不會(huì)在這里結(jié)束。

文字對(duì)圖像的描述只是粗粒度的，用戶更多的希望繼續(xù)細(xì)粒度的去微調(diào)圖像的內(nèi)容，例如去改變所生成內(nèi)容的姿態(tài)、轉(zhuǎn)動(dòng)獅子的頭、增大或縮小物體的大小、移動(dòng)物體的位置、甚至改變獅子的表情。這一系列操作都是關(guān)于物體空間屬性的精細(xì)控制，如何對(duì)這些屬性進(jìn)行精細(xì)控制仍然面臨比較大的挑戰(zhàn)。

為了實(shí)現(xiàn)更精細(xì)的圖像微調(diào)，用戶需要提供更加詳細(xì)和準(zhǔn)確的信息描述，包括對(duì)圖像中每個(gè)物體的具體位置、大小、姿態(tài)、紋理和顏色等屬性進(jìn)行描述。這些信息對(duì)于生成更加逼真和精確的圖像來說非常重要。

然而，要實(shí)現(xiàn)高質(zhì)量的圖像微調(diào)并不是一件容易的事情。需要大量的數(shù)據(jù)和算法訓(xùn)練來提高生成器模型的精度和效果，而且還需要開發(fā)更加智能和自適應(yīng)的算法來處理不同類型的輸入文本。除此之外，還需要考慮如何在生成過程中保護(hù)知識(shí)產(chǎn)權(quán)和隱私，避免侵權(quán)行為的發(fā)生。

我們應(yīng)該如何控制空間屬性？

為了實(shí)現(xiàn)對(duì)物體空間屬性的精細(xì)控制，我們可以通過沿襲文生圖的方法，根據(jù)文字的描述編輯圖片。目前，學(xué)術(shù)界已經(jīng)有一些根據(jù)文字來改變圖片內(nèi)容的方法，例如讓獅子的鼻子向右移動(dòng)30像素。但是，這種編輯方式存在一些問題。首先，這種文字編輯需要文本模型的支持，以便理解所有可能的物體空間屬性編輯方式。除了向右移動(dòng)之外，還有許多其他方法可以進(jìn)行編輯。其次，對(duì)于語(yǔ)言模型來說，它實(shí)際上很難理解30個(gè)像素在當(dāng)前圖像中的精確長(zhǎng)度。因此，對(duì)于目前的文生圖語(yǔ)言來說，精確編輯仍然是一個(gè)較大的挑戰(zhàn)。

什么是交互式點(diǎn)拖動(dòng)？

用戶可以通過點(diǎn)擊兩個(gè)關(guān)鍵點(diǎn)來調(diào)整圖像的空間屬性，將紅點(diǎn)所代表的圖像語(yǔ)義部分移動(dòng)到藍(lán)點(diǎn)處，實(shí)現(xiàn)對(duì)圖像空間屬性的編輯。

這種方式具有以下幾個(gè)優(yōu)點(diǎn)：首先，它非常簡(jiǎn)單易用，只需要兩個(gè)點(diǎn)的坐標(biāo)信息；其次，用戶可以精確指定抓取點(diǎn)和目標(biāo)點(diǎn)的位置和距離，從而實(shí)現(xiàn)高度精確的編輯和調(diào)整；最后，它非常靈活，可以應(yīng)用于各種不同的圖像編輯場(chǎng)景，例如改變圖像的大小、姿態(tài)、位置等。

點(diǎn)交拖拽的交互式編輯方向的成果——DragGAN

可以看到，用戶可以選擇性地指定一塊可編輯區(qū)域，然后通過指定紅點(diǎn)和藍(lán)點(diǎn)，算法會(huì)將紅點(diǎn)移到藍(lán)點(diǎn)的位置。并且值得一提的是，所得到的并不僅僅是最終編輯完成后的圖片，而是整個(gè)中間過渡的過程。所以，最終呈現(xiàn)出來的是視頻或動(dòng)畫的效果，這對(duì)于視頻或者動(dòng)畫方向來說也具有一定的應(yīng)用場(chǎng)景。

作者?| 居居手

排版 | 春花

審核 | 貓

若您對(duì)該文章內(nèi)容有任何疑問，請(qǐng)與我們聯(lián)系，將及時(shí)回應(yīng)。想要了解更多資訊，請(qǐng)關(guān)注BFT智能機(jī)器人系統(tǒng)~

標(biāo)簽：

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯

本文作者的其他文章

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯

DragGAN應(yīng)運(yùn)而生，未來在4G視頻上都可能利用拖拽式編輯的評(píng)論 (共條)