最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

第五期——從生成對抗網(wǎng)絡(luò)到全自動修圖

2022-12-24 10:59 作者:Rainer心雨  | 我要投稿

從最近大火的chatGPT,到圖片轉(zhuǎn)動漫,從DALL.E文生圖到一鍵寫文案,這幾年里很多“科技狠活”都出自一個叫做GAN的模型之手。今天要講到的XMAGE影像引擎與小米影像大腦也是基于GAN制作的。那么,這個模型到底是什么?它是靠什么實現(xiàn)“自動修圖”的?

Generative Adversarial Networks

GAN的中文翻譯為:生成對抗網(wǎng)絡(luò)(也有地方叫對抗生成網(wǎng)絡(luò)),意如字現(xiàn),無論是誰在前面,GAN都有一個特征:生成(G)、對抗(A)還有網(wǎng)絡(luò)(N)。

舉個例子的話,假設(shè)一個犯罪團伙,準備印假鈔。首先肯定要找一個模子,就是真鈔了。然后小G是造假鈔的“工程師”,小A是監(jiān)工,負責(zé)監(jiān)督假鈔的質(zhì)量。當(dāng)小A檢測到造出來的產(chǎn)品質(zhì)量不到真鈔的水平,就讓小G打回去重做,如果到了以假亂真的程度,那么恭喜,這筆生意就成了~?。ㄖ皇乾F(xiàn)在都不用紙幣了)

當(dāng)然,實際情況會更復(fù)雜。首先,在舉的例子里,真鈔只有一種。但如果想要生成的物體不止一種呢?比如說像DALL.E一樣憑空生成一張圖片,一張照片包含的可能性可是無窮的,可以是一個明星,也可能是籃球,或者背帶褲。為了為小G找到合適的學(xué)習(xí)對象,公司把整個百度圖片里面的照片都交給了小G,讓他學(xué)習(xí)造一張圖片。這個時候,監(jiān)工小A也可以拿著有著上億數(shù)量級的照片庫當(dāng)范本,當(dāng)小G造了一張圖片后,小A就照著圖庫里面的照片,看看憑空造出來的圖片和真實存在的圖片有多少的相似度。

如果監(jiān)工小A太嚴格,每次小G生成的圖片都會被打回去,那小G自然就沒有信心了,但如果太松的話,生成的什么照片都給通過,那客戶肯定是不買賬的。所以GAN模型的關(guān)鍵在于什么時候給小G一個糖果,什么時候拿著鞭子抽它。這個步驟稱為下降梯度。

讓小G生成更加可信的結(jié)果,還需要龐大的網(wǎng)絡(luò),比如百度圖片里面上億級別的圖片(當(dāng)然, 這樣做是違法的,所以百度找了其他方法),只有足夠多的數(shù)據(jù)網(wǎng)絡(luò),才可能創(chuàng)造出可信的結(jié)果。當(dāng)然,為了提升效率,也可以對數(shù)據(jù)進行標注,來加快小G的理解,比如“這張圖里面有一個明星在跳舞,手里拿著一個籃球”。這個時候,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)就能提到作用,比如景深識別、面部識別、物體識別等。

所以,現(xiàn)在你大概就能理解那些刷爆朋友圈的各種人工智能的原理了吧。比chatGPT的訓(xùn)練模型是文本,DALL.E的訓(xùn)練模型是圖片,圖片轉(zhuǎn)動漫的訓(xùn)練模型則是各種各樣的動漫圖。

那么,GAN的出現(xiàn)會給影像帶來什么樣的變化呢?它是怎么做到“全自動修圖”的?

如果回到華為mate50系列新品發(fā)布會與小米13系列發(fā)布會,會發(fā)現(xiàn)其中的端倪?;叵胍幌?,GAN都需要什么,需要生成器G,監(jiān)工A和訓(xùn)練網(wǎng)絡(luò)N。在發(fā)布會上,我們能找到一個關(guān)鍵信息:訓(xùn)練網(wǎng)絡(luò)N的來源。華為XMAGE的來源是華為新影像大賽的參賽作品,小米影像大腦則來自于小米徠卡影像大賽參賽作品。比賽,是區(qū)分好作品與否的最直觀的方式,通過比賽所篩選出來的作品,將會作為訓(xùn)練集進入到GAN的訓(xùn)練中。

當(dāng)然,相比于憑空造圖,修圖要更加簡單。在生成器G中,一個重要的內(nèi)容是參數(shù)的數(shù)量,造圖可能需要上億的參數(shù),但是修圖方面,有過修圖經(jīng)歷的攝影師也明白,參數(shù)最多也不會超過一千的量級。雖說如此,但是要衡量效果如何,最終還是要看訓(xùn)練庫中作品的質(zhì)量與數(shù)量。

每當(dāng)訓(xùn)練完畢后,都會生成一個訓(xùn)練文件,就像做飯一樣,GAN看到今天用的是黃瓜、地瓜和西瓜,就會分析出最佳的食用方式(我推薦直接吃)。根據(jù)文件大小,公司可以選擇在線使用或者離線使用。像chatGPT使用的是在線的方式,有時候向它問一個問題,它會思考半天。而華為使用的是離線方案,mate50系列的更新動輒4、5百兆,多的時候能到1G,更新日志里寫著“拍照場景優(yōu)化”就是在對XMAGE的GAN模型進行的改進。

在使用XMAGE進行拍攝時,我常常會有一種錯覺,認為修出來的照片好像某個大師會修的風(fēng)格,具體也說不上來,大抵就是這樣的體驗。

以前,大家用的還是半自動修圖,各種套用濾鏡,直到找到自己喜歡的風(fēng)格?,F(xiàn)在,修圖變成了AI幫你找濾鏡。那么,以后又會變成什么樣子呢?


參考資料:

生成對抗網(wǎng)絡(luò)(GAN) - 知乎 (zhihu.com)

ChatGPT: Optimizing Language Models for Dialogue (openai.com)

DALL·E 2 (openai.com)

小米影像 - 2022中國影像辭典,小米徠卡影像大賽 (mi.com)

2022新影像大賽 (huawei.com)




編輯人:思諾

資料收集:心雨

如資料有誤,請及時聯(lián)系修改

所有文章都已表明出處,如果你是原作者且不同意引用,請聯(lián)系我們撤除相關(guān)內(nèi)容

除引用部分以外,其它均為原創(chuàng),轉(zhuǎn)載需標明“新鄉(xiāng)學(xué)院攝影協(xié)會”字樣

新鄉(xiāng)學(xué)院攝影協(xié)會

2022.12.24





第五期——從生成對抗網(wǎng)絡(luò)到全自動修圖的評論 (共 條)

分享到微博請遵守國家法律
石屏县| 绍兴市| 东明县| 吉木乃县| 个旧市| 温州市| 乐安县| 敖汉旗| 沅陵县| 交口县| 肃北| 东阳市| 九台市| 土默特左旗| 惠安县| 乾安县| 锦屏县| 昌吉市| 滦南县| 万宁市| 闽清县| 南溪县| 长白| 大安市| 青龙| 荥阳市| 新密市| 恩平市| 杂多县| 诏安县| 唐海县| 馆陶县| 余干县| 贡山| 綦江县| 兰溪市| 富蕴县| 河北省| 夏河县| 东乌| 原平市|