最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

當(dāng)看到《西部世界》里這一幕時(shí),我覺得該聊聊AI繪畫的原理了

2022-06-30 20:28 作者:藍(lán)鯨澤維爾  | 我要投稿


我覺得但凡之前看過AI繪圖相關(guān)內(nèi)容的人,看到《西部世界》第四季第一集里德妹在游戲公司上班這一幕時(shí),應(yīng)該都會(huì)意識這是在cue什么東西吧。借這段時(shí)間使用和了解AI繪圖的經(jīng)歷,我想在這里簡單聊一聊它背后的原理和未來的趨勢。

先說德妹在做的事,看上去她是在用語音指導(dǎo)面前這個(gè)“電腦”即時(shí)生成3D影像。嗯,你們有沒有注意到,她面前這個(gè)“電腦”只有屏幕,沒有鼠標(biāo)、鍵盤?另外劇中她也說了,自己的工作是為游戲公司設(shè)計(jì)NPC,這意味著什么呢?其實(shí)就是我們現(xiàn)在看到的AI繪圖向“元宇宙”多前進(jìn)了一步,把“文本——圖像”變成了“語音——文本——圖像——3D影像”。AI繪圖其實(shí)只是一種比較低級的人工智能工具,總有人在大談什么人類的創(chuàng)意要死亡之類的哲學(xué)笑話,現(xiàn)在怎么樣?即使《西部世界》這樣的科幻劇里,還是要保守地告訴你,終究還是得人自己來提供創(chuàng)意。而且它的保守還體現(xiàn)在,根本沒提VR和腦機(jī)——其實(shí)再進(jìn)一步,不就是直接“腦波——3D影像“?以前我翻譯后發(fā)在B站的美國五六十年代科幻小說《星際飛鼠》里就有外星人直接用腦波向現(xiàn)實(shí)的屏幕進(jìn)行圖像”投影“的想象,現(xiàn)在看來,其實(shí)它離實(shí)現(xiàn)也不見得很遠(yuǎn)了?;蛟S早晚有一天人類可以把腦海中的畫面直接投影到現(xiàn)實(shí),甚至做夢都可以實(shí)時(shí)分享。

關(guān)于科幻和美劇的東西就此打住,我們下面用最簡單的大白話解釋當(dāng)下的現(xiàn)實(shí)中,AI繪圖的原理。

首先,我們先要排除一些錯(cuò)誤的認(rèn)識。AI繪圖和人工手繪、PS等數(shù)碼繪畫軟件到底有什么區(qū)別?表面上看,所有人都知道,啊,不就是輸幾個(gè)英文單詞看它隨機(jī)跑張畫么,有什么好吹的是吧。

其實(shí)AI繪圖是由兩部分組成的,以做菜來比喻比較確切一點(diǎn)——核心的“文本-圖像”模型,根據(jù)我們提供的文本選擇“食材”,也就是選取模型中和文本對應(yīng)的那些圖像元素;而“做菜”的程序,就是我們需要調(diào)整的那些計(jì)算參數(shù),它是以我們提供的“食材”為判斷條件,從一張隨機(jī)(也可以不隨機(jī))生成的噪點(diǎn)圖開始,符合文本內(nèi)容的留下,不符合的刪除。然后再重新噴上一些噪點(diǎn),再進(jìn)行下一輪判斷計(jì)算,迭代很多步之后,就得到了我們想做的“菜”

所以有人問AI繪畫有什么技術(shù)含量?有什么門檻?跟大廚抄菜一樣的道理,你既要了解食材,也就是用哪些文本才能調(diào)出你想要的畫面元素,還要會(huì)微調(diào)你的做菜程序,也就是怎么調(diào)整那些亂七八糟的英文參數(shù)來讓你的食材變成一道色香味俱全的好菜,而不是黑暗料理。

Disco Diffusion看上去很容易入門,那是因?yàn)橛泻芏嗲叭朔窒沓鰜淼奈谋竞蛥?shù)經(jīng)驗(yàn)給你,讓你節(jié)省了很多自己實(shí)驗(yàn)的時(shí)間。更別提那些連“做菜參數(shù)”都不用你調(diào)的網(wǎng)站和APP了。

那我先說第一部分,就是文本-圖像的模型。其實(shí)這是AI繪圖最核心也是最有技術(shù)含量(也是成本最高)的那塊內(nèi)容。

大數(shù)據(jù)火了不是一兩年了,機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的概念早就爛大街了,我自己一開始也在用幾年前學(xué)的知識去想象文本-圖像模型的邏輯,后來發(fā)覺這都是錯(cuò)誤的。AI繪圖中用到的各種模型,如Disco DIffusion使用的CLIP(Contrastive Language-Image Pre-Training)等,它是神經(jīng)網(wǎng)絡(luò)沒錯(cuò),但是和以前的機(jī)器學(xué)習(xí)有兩個(gè)區(qū)別,一是“多模態(tài)”,二是“零樣本”。

多模態(tài)”:意思是它同時(shí)訓(xùn)練AI做了兩件事,一是自然語言處理,二是計(jì)算機(jī)視覺。大白話講,就是讓計(jì)算機(jī)理解人類語言,和讓計(jì)算機(jī)像人眼一樣觀察理解世界。以前的機(jī)器學(xué)習(xí)都是只干其中一項(xiàng)就了不起了,而CLIP模型是在兩者間建立了一個(gè)橋梁,而且還是某種很強(qiáng)力的聯(lián)系,這是它的偉大之處之一。

零樣本”:意思是,它可以輸出人類從來沒有訓(xùn)練過它的結(jié)果。以前的機(jī)器學(xué)習(xí),讓AI畫貓,它就學(xué)會(huì)了畫貓。讓它畫狗,它就學(xué)會(huì)了畫狗。但你沒教過它畫浣熊,讓它畫會(huì)怎樣?會(huì)報(bào)錯(cuò),畫不出來。而CLIP模型是可以畫它沒有訓(xùn)練過的內(nèi)容的,也就是說我一張浣熊的照片都沒給它看過,它居然能畫出來!而且可能畫得還挺像。這也是為何它會(huì)被用來進(jìn)行藝術(shù)創(chuàng)作。這是它的偉大之處之二。

那么這樣的模型是怎樣訓(xùn)練出來的呢?

首先,你需要一個(gè)由圖片構(gòu)成的訓(xùn)練集。每張圖片上都有相應(yīng)的文本描繪。CLIP模型里有兩個(gè)子模型,一個(gè)負(fù)責(zé)圖像解碼,一個(gè)負(fù)責(zé)文本解碼,于是每張圖像和對應(yīng)的文本描繪都會(huì)分別生成一個(gè)特征值。對這個(gè)過程形象一點(diǎn)的比喻,就是把圖像和文本上蘊(yùn)含的信息分別“砸”進(jìn)同一個(gè)數(shù)學(xué)空間里。

第二步,也就是最花錢的步驟,就是要對這些特征值進(jìn)行擬合。要讓所有對應(yīng)的特征值之間的差距最小,而讓所有非對應(yīng)的特征值之間的差距最大。就像下圖這樣,讓右側(cè)矩陣中的淺藍(lán)色方塊所代表的那組特征值差距之和最小,而其他灰色方塊中的特征值差之和最大。于是基于這組圖片和文本描繪建立起來的模型就計(jì)算出來了,當(dāng)你給出一段文本或某張圖像時(shí),它就會(huì)把對應(yīng)的圖像或文本輸出給你。

這個(gè)計(jì)算量可想而知是有多大了。所以整個(gè)AI繪畫最值錢的部分就是它了。如果不是那些科研團(tuán)隊(duì)(康奈爾、清華等)和公司(OpenAI、谷歌、蘋果等)選擇開源公布這些他們可能花了幾百萬美元訓(xùn)練出來的模型代碼的話,我們也就不太可能接觸到這項(xiàng)技術(shù)(為啥會(huì)開源我后面會(huì)說?。?。

現(xiàn)在問題來了,這種模型為什么會(huì)有創(chuàng)造性?要是只是一個(gè)文本-圖像的多對多網(wǎng)絡(luò)而已,那它跟百度谷歌搜圖引擎或者各種圖像數(shù)據(jù)庫有什么區(qū)別?秘密就在模型所構(gòu)建的那個(gè)數(shù)學(xué)空間里,是存在無限的可能的。當(dāng)你輸入訓(xùn)練集中原本沒有的文本或圖像時(shí),它所生成的新的特征值在這個(gè)空間里還是會(huì)有自己的位置的,而模型所輸出的內(nèi)容,可能就會(huì)與它相鄰的那些特征值所代表的訓(xùn)練集中原本存在的內(nèi)容有關(guān)。

我們用最簡單的坐標(biāo)系空間來理解,假設(shè)(1,2)這個(gè)特征值不是通過學(xué)習(xí)訓(xùn)練集生成的,也就是沒有哪張圖像對應(yīng)的特征值是它,而是你輸入的新文本被解碼成了(1,2),那么模型會(huì)輸出什么圖像呢,是空白嗎?如果(1,1),(0,2),(3,3)的特征值原本是有對應(yīng)的圖像的,那模型不會(huì)給你輸出空白,而是會(huì)輸出和這三張圖像有關(guān)的一張圖像。當(dāng)然實(shí)際的數(shù)學(xué)空間遠(yuǎn)比這個(gè)坐標(biāo)系復(fù)雜得多,但原理是一樣的。這也是為何當(dāng)你使用符號、非訓(xùn)練語言(在基于英文的訓(xùn)練模型里輸入中文)、錯(cuò)誤拼寫單詞、生造詞匯,依然可以獲得圖像輸出,甚至還能制造特殊效果的原因(如果你把某位畫家名字拼錯(cuò),還是能得到類似的風(fēng)格,不過會(huì)和正常拼寫的風(fēng)格有微妙變化?。?。

現(xiàn)在說說這個(gè)模型的局限性在哪里。

首先,是訓(xùn)練集的質(zhì)量問題。這無數(shù)張圖片(CLIP模型用了四十億張圖片,規(guī)模更大的訓(xùn)練集還有的是),其實(shí)大部分是直接爬取的網(wǎng)絡(luò)圖片。就如你在百度谷歌搜索圖片時(shí)看到的那樣,所有圖片上都自帶有一串文字描繪。于是我們就直接拿他們來訓(xùn)練AI了。到這里你就應(yīng)該意識到它和傳統(tǒng)機(jī)器學(xué)習(xí)的不同之處了,它跳過了最勞神的數(shù)據(jù)標(biāo)注!

現(xiàn)在問題就來了,基于這樣的數(shù)據(jù)集進(jìn)行訓(xùn)練,它真的能形成非常嚴(yán)謹(jǐn)?shù)淖匀徽Z言理解嗎?

使用者其實(shí)都發(fā)現(xiàn)了,你用日常的英語去進(jìn)行交互,限制是非常多的,遠(yuǎn)沒有達(dá)到德妹那種自由對話的程度,甚至只要主題超過一個(gè)立馬畫糊了。我還試驗(yàn)過用Disco Diffusion只畫一個(gè)單詞,讓它一個(gè)單詞一個(gè)單詞的畫,令人失望的是,它能準(zhǔn)確表達(dá)的詞匯其實(shí)不多。更別提用語法去構(gòu)造句子了。為什么呢?

原因就在于這些原本的描繪詞和圖像之間的聯(lián)系可能就不會(huì)很精細(xì),比喻地講,好比我們沒有像背字典、看圖解百科全書那樣一個(gè)詞一個(gè)詞地去教AI看圖識字,而是直接讓它通過成百上千的帶有插畫的英文文章閱讀,自己形成一套對英語的理解。如果這時(shí)候原本數(shù)據(jù)集中的文本描繪與圖像就有偏差,那就很難保證這種理解是沒有偏差的。

實(shí)際上現(xiàn)有模型中你輸入的某個(gè)單詞,它背后所聯(lián)系到的圖像,絕不會(huì)是百科全書或詞典里那樣的標(biāo)準(zhǔn)內(nèi)容,而是訓(xùn)練集中所有其描繪文本中有這個(gè)單詞的圖像形成的合集。你輸入的是雞蛋,但畫出來的可能會(huì)有只老母雞、廚房或者別的什么你根本沒想到的東西。這也是為何我們想做一些復(fù)雜描繪時(shí)總會(huì)遇到困難的原因。但它同時(shí)也提供了更多的想象力,有時(shí)能創(chuàng)作出我們意想不到的好場景。這是把雙刃劍。

其次,是訓(xùn)練集的選材問題。如果某些描繪詞在訓(xùn)練集中過于少見,那很可能就不會(huì)形成準(zhǔn)確的特征值,所聯(lián)系到的圖像可能就會(huì)南轅北轍,張冠李戴。比如Disco Diffusion的訓(xùn)練集是2019年之前的圖片數(shù)據(jù),那么你把最近兩年的一些新生熱詞直接拿來做描繪詞,結(jié)果就可想而知了。

當(dāng)然隨著后續(xù)技術(shù)發(fā)展,硬件軟件限制的不斷破解,這些都會(huì)得到解決。而且商業(yè)前景其實(shí)往往也就在于此。想要一個(gè)專做復(fù)雜模型、專搞商標(biāo)設(shè)計(jì)、專做汽車裝飾的高精度AI行不行?只要你肯投錢自己訓(xùn)練模型,沒有辦不到的。這也是目前這些模型選材廣闊和開源的原因,只有更多的人參與測試(至少可以分擔(dān)顯卡工時(shí)),才能推進(jìn)它的研究。如果真有那種很高級可以投入某方面產(chǎn)業(yè)化應(yīng)用的模型問世,想必一般人也是用不起的。

第二部分,就是繪圖的算法,也就是“做菜程序”。里面涉及的參數(shù)很多我就不展開講了,推薦大家去看英文的各種材料,實(shí)際上老外總結(jié)得已經(jīng)相當(dāng)細(xì)致了。前面說了大致的原理,所以你要關(guān)注的主要是圖像判斷計(jì)算的強(qiáng)度、切塊的大小(把圖像切小進(jìn)行判斷)、計(jì)算曲線的設(shè)定、計(jì)算的步數(shù)(和跳過的步數(shù))、文本描繪詞影響力的強(qiáng)弱、每步計(jì)算時(shí)補(bǔ)充新噪點(diǎn)的程度等。這些東西都可以用做菜的程序來比喻,什么火大火小、蒸煮時(shí)間長短之類的。在其他Diffusion里,可能還會(huì)有更多的參數(shù),比如人臉糾正計(jì)算、強(qiáng)制對稱性的計(jì)算等等,其實(shí)都是非常好理解的概念,只要你看得懂英文,稍微瀏覽一下作者留下的參考文檔就會(huì)明白它的含義。一些新的DIffusion里已經(jīng)有了可以手動(dòng)制作Mask的功能,相當(dāng)于只把一部分菜品回鍋重做,所以在做菜程序上,進(jìn)步的空間也是非常巨大的。

需要注意的一點(diǎn),就是這種繪圖方法不是“渲染”,不存在預(yù)設(shè)的底圖,而是一種整體的計(jì)算,所以作為目前AI繪圖程序的使用者而言,必須擺脫傳統(tǒng)繪圖軟件的思路,在了解這些參數(shù)背后代表的含義之后進(jìn)行調(diào)整。有時(shí)這種調(diào)整會(huì)非常復(fù)雜,因?yàn)檫@些參數(shù)并不是直接去影響畫質(zhì),而是通過改變繪圖計(jì)算的性質(zhì)間接地去影響,你拿到的默認(rèn)設(shè)置和前人提供的參數(shù)都只能僅供參考。模型不同、文本描繪詞不同,要得到理想畫面,實(shí)際的參數(shù)可能是需要很多次實(shí)驗(yàn)的。

這也是為什么我不喜歡分享描繪詞和參數(shù)的原因,因?yàn)闆]有意義。去重復(fù)他人的實(shí)驗(yàn),不如做自己的探索來得有意義。

最后再聊聊前面提到過的使用門檻問題。AI繪畫技術(shù)的迭代是很快的,因?yàn)橄嚓P(guān)硬件和軟件的迭代速度也非??臁N覀儸F(xiàn)在說的一些技巧,基本都是基于現(xiàn)在的技術(shù)缺陷來談的,很可能以后會(huì)用不到。比如Prompt?Engineering,把提示詞(文本描繪詞)怎么寫都上升到一種工程了,恰好說明它在自然語言理解上還有很長一段路要走。在現(xiàn)有條件下探索模型中隱含的那個(gè)數(shù)學(xué)空間,確實(shí)需要你從CLIP模型本身的數(shù)據(jù)集去分析入手,尋找那些能形成你想要的效果的詞匯,而不是真的憑空想象就完了。同時(shí)對于輸入文本的要求,也要貼近原本訓(xùn)練集中的格式才行(問題是原本那四十億張圖的文本描繪格式就不是統(tǒng)一整齊的)。

另外參數(shù)的調(diào)整也是比較惱人的一個(gè)障礙,Disco?Diffusion最大的一個(gè)優(yōu)點(diǎn)就是它的穩(wěn)定性非常好,因?yàn)楹芏嗖环€(wěn)定和不好用的參數(shù)已經(jīng)通過大家的實(shí)驗(yàn)剔除了,留給使用者的都是相對效果明顯而獨(dú)立的;其他使用者較少的,比如Latent?Diffusion等,在穩(wěn)定性上就差很多,即使用默認(rèn)參數(shù)畫默認(rèn)主題,也會(huì)出現(xiàn)至少一半的失敗圖片(另一半倒是確實(shí)很驚艷),這也是開發(fā)者和使用者們一起努力的一個(gè)過程(開源的另一個(gè)意義所在)。

至于當(dāng)前的AI繪畫能不能算一種一種藝術(shù)創(chuàng)作,值不值得進(jìn)行探索和關(guān)注,我覺得看完全篇之后,你應(yīng)該會(huì)有一層新的認(rèn)識。

(完)

當(dāng)看到《西部世界》里這一幕時(shí),我覺得該聊聊AI繪畫的原理了的評論 (共 條)

分享到微博請遵守國家法律
皋兰县| 大兴区| 甘孜县| 霍邱县| 手游| 扶风县| 沙坪坝区| 潮安县| 宁都县| 清水河县| 疏附县| 巴彦淖尔市| 黄陵县| 金堂县| 安吉县| 城步| 海宁市| 宽甸| 河南省| 顺义区| 寿阳县| 株洲县| 新营市| 平原县| 汉中市| 鹤岗市| 南川市| 静海县| 古田县| 安龙县| 公主岭市| 射洪县| 前郭尔| 敦煌市| 陕西省| 唐海县| 龙江县| 泰安市| 鄂州市| 巫溪县| 高密市|