散文網(wǎng) » 科技 »數(shù)碼 » 第五期——從生成對抗網(wǎng)絡(luò)到全自動修圖

第五期——從生成對抗網(wǎng)絡(luò)到全自動修圖

2022-12-24 10:59 作者:Rainer心雨 0人讀過 | 我要投稿

從最近大火的chatGPT，到圖片轉(zhuǎn)動漫，從DALL.E文生圖到一鍵寫文案，這幾年里很多“科技狠活”都出自一個叫做GAN的模型之手。今天要講到的XMAGE影像引擎與小米影像大腦也是基于GAN制作的。那么，這個模型到底是什么？它是靠什么實現(xiàn)“自動修圖”的？

Generative Adversarial Networks

GAN的中文翻譯為：生成對抗網(wǎng)絡(luò)（也有地方叫對抗生成網(wǎng)絡(luò)），意如字現(xiàn)，無論是誰在前面，GAN都有一個特征：生成（G）、對抗（A）還有網(wǎng)絡(luò)（N）。

舉個例子的話，假設(shè)一個犯罪團伙，準備印假鈔。首先肯定要找一個模子，就是真鈔了。然后小G是造假鈔的“工程師”，小A是監(jiān)工，負責(zé)監(jiān)督假鈔的質(zhì)量。當(dāng)小A檢測到造出來的產(chǎn)品質(zhì)量不到真鈔的水平，就讓小G打回去重做，如果到了以假亂真的程度，那么恭喜，這筆生意就成了~?。ㄖ皇乾F(xiàn)在都不用紙幣了）

當(dāng)然，實際情況會更復(fù)雜。首先，在舉的例子里，真鈔只有一種。但如果想要生成的物體不止一種呢？比如說像DALL.E一樣憑空生成一張圖片，一張照片包含的可能性可是無窮的，可以是一個明星，也可能是籃球，或者背帶褲。為了為小G找到合適的學(xué)習(xí)對象，公司把整個百度圖片里面的照片都交給了小G，讓他學(xué)習(xí)造一張圖片。這個時候，監(jiān)工小A也可以拿著有著上億數(shù)量級的照片庫當(dāng)范本，當(dāng)小G造了一張圖片后，小A就照著圖庫里面的照片，看看憑空造出來的圖片和真實存在的圖片有多少的相似度。

如果監(jiān)工小A太嚴格，每次小G生成的圖片都會被打回去，那小G自然就沒有信心了，但如果太松的話，生成的什么照片都給通過，那客戶肯定是不買賬的。所以GAN模型的關(guān)鍵在于什么時候給小G一個糖果，什么時候拿著鞭子抽它。這個步驟稱為下降梯度。

讓小G生成更加可信的結(jié)果，還需要龐大的網(wǎng)絡(luò)，比如百度圖片里面上億級別的圖片（當(dāng)然，這樣做是違法的，所以百度找了其他方法），只有足夠多的數(shù)據(jù)網(wǎng)絡(luò)，才可能創(chuàng)造出可信的結(jié)果。當(dāng)然，為了提升效率，也可以對數(shù)據(jù)進行標注，來加快小G的理解，比如“這張圖里面有一個明星在跳舞，手里拿著一個籃球”。這個時候，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)就能提到作用，比如景深識別、面部識別、物體識別等。

所以，現(xiàn)在你大概就能理解那些刷爆朋友圈的各種人工智能的原理了吧。比chatGPT的訓(xùn)練模型是文本，DALL.E的訓(xùn)練模型是圖片，圖片轉(zhuǎn)動漫的訓(xùn)練模型則是各種各樣的動漫圖。

那么，GAN的出現(xiàn)會給影像帶來什么樣的變化呢？它是怎么做到“全自動修圖”的？

如果回到華為mate50系列新品發(fā)布會與小米13系列發(fā)布會，會發(fā)現(xiàn)其中的端倪?；叵胍幌?，GAN都需要什么，需要生成器G，監(jiān)工A和訓(xùn)練網(wǎng)絡(luò)N。在發(fā)布會上，我們能找到一個關(guān)鍵信息：訓(xùn)練網(wǎng)絡(luò)N的來源。華為XMAGE的來源是華為新影像大賽的參賽作品，小米影像大腦則來自于小米徠卡影像大賽參賽作品。比賽，是區(qū)分好作品與否的最直觀的方式，通過比賽所篩選出來的作品，將會作為訓(xùn)練集進入到GAN的訓(xùn)練中。

當(dāng)然，相比于憑空造圖，修圖要更加簡單。在生成器G中，一個重要的內(nèi)容是參數(shù)的數(shù)量，造圖可能需要上億的參數(shù)，但是修圖方面，有過修圖經(jīng)歷的攝影師也明白，參數(shù)最多也不會超過一千的量級。雖說如此，但是要衡量效果如何，最終還是要看訓(xùn)練庫中作品的質(zhì)量與數(shù)量。

每當(dāng)訓(xùn)練完畢后，都會生成一個訓(xùn)練文件，就像做飯一樣，GAN看到今天用的是黃瓜、地瓜和西瓜，就會分析出最佳的食用方式（我推薦直接吃）。根據(jù)文件大小，公司可以選擇在線使用或者離線使用。像chatGPT使用的是在線的方式，有時候向它問一個問題，它會思考半天。而華為使用的是離線方案，mate50系列的更新動輒4、5百兆，多的時候能到1G，更新日志里寫著“拍照場景優(yōu)化”就是在對XMAGE的GAN模型進行的改進。

在使用XMAGE進行拍攝時，我常常會有一種錯覺，認為修出來的照片好像某個大師會修的風(fēng)格，具體也說不上來，大抵就是這樣的體驗。

以前，大家用的還是半自動修圖，各種套用濾鏡，直到找到自己喜歡的風(fēng)格?，F(xiàn)在，修圖變成了AI幫你找濾鏡。那么，以后又會變成什么樣子呢？

參考資料：

生成對抗網(wǎng)絡(luò)（GAN） - 知乎 (zhihu.com)

ChatGPT: Optimizing Language Models for Dialogue (openai.com)

DALL·E 2 (openai.com)

小米影像 - 2022中國影像辭典，小米徠卡影像大賽 (mi.com)

2022新影像大賽 (huawei.com)

編輯人：思諾

資料收集：心雨

如資料有誤，請及時聯(lián)系修改

所有文章都已表明出處，如果你是原作者且不同意引用，請聯(lián)系我們撤除相關(guān)內(nèi)容

除引用部分以外，其它均為原創(chuàng)，轉(zhuǎn)載需標明“新鄉(xiāng)學(xué)院攝影協(xié)會”字樣

新鄉(xiāng)學(xué)院攝影協(xié)會

2022.12.24

標簽：