封面圖由AI生成

你可能認(rèn)得出封面上的這個人,美國歌星泰勒·斯威夫特(Taylor Swift),但正如標(biāo)題所說,這張封面圖上Taylor Swift是由AI生成的。
這周我發(fā)現(xiàn)了一個在線AI繪畫平臺,這個平臺和那些生成圖一眼看起來就非常廉價的平臺不同,這個平臺出圖的精致程度明顯不是一個等級。甚至還可以訓(xùn)練自己的風(fēng)格庫。
于是我就訓(xùn)練了一個泰勒·斯威夫特的風(fēng)格庫。本文的所有配圖都是用這個風(fēng)格庫生成的。
最近兩周之所以一個視頻沒發(fā),就是因?yàn)槲乙恢痹谕孢@個。當(dāng)然,我也同時在忙著畢業(yè)的事情,但忙里偷閑分了時間玩這個,自然就沒時間做視頻了。
(這是一篇經(jīng)驗(yàn)分享文。我倒希望是廣告,這樣萬一以后收費(fèi)了我說不定還能拿一個什么永久VIP呢)


這可以說是一張獨(dú)一無二的照片,因?yàn)樗俏姨摌?gòu)出來的,目前還沒有在互聯(lián)網(wǎng)上進(jìn)行傳播。
這是我第一次接觸AI繪畫,而這甚至不是Midjourney、Stable Diffusion等更復(fù)雜的、自主性更強(qiáng)的繪畫AI,可以說是展露了目前AI發(fā)展的冰山一角,卻依然帶給了我不小的震撼。
作為一個開放的平臺,這個平臺操作要求非常傻瓜式,你只需要選擇一個基礎(chǔ)模型,丟給它事先準(zhǔn)備好的十到八十張圖片,然后,等待十多分鐘至一個小時不等,就可以直接訓(xùn)練出來了。
一開始我隨便找了五十張?zhí)├铡に雇蛱氐恼掌鳛槟壳翱赡苁侨蜃罨鸬母栊?,她的圖片很好找,這也是我選擇她的原因之一——訓(xùn)練了第一個風(fēng)格庫版本,我稱其為“霉霉-50-0405”。
霉霉是中國粉絲對她的昵稱,50指用了50張圖訓(xùn)練,0405則是日期。
最后出來的效果竟然還不錯。雖然一開始生成的那個女人最多只能稱之為泰勒的遠(yuǎn)房親戚,但是后面生成的圖還真像那么回事兒。
但說實(shí)話,想描述還真是一個不簡單的活,一方面我希望最后的結(jié)果盡可能自然,但是另一方面我又希望生成的圖片足夠離譜,以突出AI的能力。舍友阿超知道后脫口而出:
“讓她穿護(hù)士裝!”
哎?這我倒是沒想到,而且這個好像還真可以?
我鍵入“泰勒·斯威夫特穿護(hù)士裝”,靜候了一分鐘,“泰勒·斯威夫特”就穿上了護(hù)士裝。
我第一眼看到的時候嚇了一跳:還真挺像!

這還只是訓(xùn)練了五十張,那我要是扔給八十張,那不是可以以假亂真?
于是我真的找了八十張?zhí)├盏恼掌鸭斑€煞有介事地搜了介紹AI繪畫訓(xùn)練集相關(guān)的文章,了解訓(xùn)練集圖片的要求。比如AI識別臉有困難,因此需要盡可能多的各種面部表情、各種角度的面部圖片,但也不能全是臉,也得有一部分半身、全身照,讓AI捕捉人的身體比例、動作。非要給一個數(shù)字的話,臉、半身和全身的數(shù)據(jù)比例大致在6:3:1。
我按照這篇文章的要求搜集、處理了八十張圖片,然后把圖片全部扔了進(jìn)去,“霉霉-80-0405”就此誕生。
我迫不及待地讓“霉霉-80-0405”生成了兩張圖,但結(jié)果讓我大失所望。不是因?yàn)椴幌?,像其?shí)也蠻像的,但是我不理解,為什么在付出了比“霉霉-50-0405”更多努力的情況下,效果卻更差了,這是完完全全的“事倍功半”。
(同樣的描述,第一張是“霉霉-50-0405”生成的圖,第二張是“霉霉-80-0405”生成的圖)


我沮喪地把消息告訴了阿超,阿超說道:“哎,這很正常,神經(jīng)網(wǎng)絡(luò)這種東西本來就很玄學(xué)的,不是訓(xùn)練得越多就越好的?!蹦呐挛易哉J(rèn)自己準(zhǔn)備訓(xùn)練圖集的努力已經(jīng)足夠科學(xué)了,卻依然沒有得到理想的結(jié)果。

這似乎是當(dāng)下人們和新近AI產(chǎn)品打交道的常態(tài),不管是訓(xùn)練還是提問,人們都會發(fā)現(xiàn)隨著AI變得越來越強(qiáng)大,我們越來越需要掌控使用AI的技巧。GPT火起來之后,“提示工程(Prompt Engineering)”這個名詞隨之走進(jìn)了大眾視野,因?yàn)槿藗儼l(fā)現(xiàn),同樣都是用GPT,為什么在別人手里又能寫代碼又能寫文章的全能神,但在自己手里卻還是那個亂給資料的“人工智障”呢?
人類早就知道提問很重要,比如愛因斯坦就說過“提出一個問題往往比解決一個問題更重要”,十年前美國的尼爾·布朗和斯圖爾特·基利也寫過一本書叫《學(xué)會提問》,但我們始終將提問視為一種應(yīng)用于人與人之間社交技巧,而從來沒有想過我們有一天在使用AI的時候也需要斟酌如何提問。
作為一個普通人,我依然不知道AI的發(fā)展到了一個什么樣的階段,但當(dāng)我意識到我開始用對待人的技巧去對待AI,甚至在對GPT提問時我還會用“請”字時,事情就變得有些令人玩味了。
回到AI繪畫上來。如果不了解控制AI的一些技巧,使用AI的體驗(yàn)就是“有心栽花花不開,無心插柳柳成蔭”。它會帶來驚喜——比如“霉霉-50-0405”,但是時不時又會讓人失望——比如“霉霉-80-0405”。但當(dāng)我知道使用AI需要技巧之后,事情的性質(zhì)就發(fā)生了變化——我對AI的質(zhì)疑會轉(zhuǎn)移到我自己身上:是不是我的提問不對所以才得不到想要的答案。當(dāng)它表現(xiàn)不好時,反而會促使我不由自主地去探索它的可能性,不管是它超越人類的那種可能性,還是“人工智障”的那種可能性。
我得說,這種不確定的驚喜就像一個更良心的老虎機(jī),還是挺讓人上癮的。
調(diào)整好心態(tài)后,我決定就使用“霉霉-50-0405”了,反正它也已經(jīng)夠好了,雖然我并不知道為什么隨意丟了五十張圖的效果能這么好,但就這樣吧。雖然不是程序員,但我也知道“程序只要能跑就不要動它”的道理。
何況我也動不了。
我生成了不少泰勒·斯威夫特的平行時空街拍,手部——這個AI繪畫的硬傷依然難以克服,但是只看小圖還是能把人唬到的。


當(dāng)然,既然都有GPT了,我為什么還要自己想描述呢?于是我直接將整個過程中實(shí)際最費(fèi)腦力的工作也一并交給了AI:
“Please generate twenty reasonable but never present descriptions of Taylor Swift's attire for AI to generate images.(請生成二十個合理但從未在現(xiàn)實(shí)出現(xiàn)過的泰勒·斯威夫特的穿搭描述以供AI生成圖像。)”
GPT勤勤懇懇地完成了這一切,除了中途提示“sexy”為違禁詞(其實(shí)我覺得這說不上違禁)讓我改了一下以外,也沒有什么問題,生成的圖片質(zhì)量也都不錯。


最后我將魔爪伸向了我的朋友吳迪,對,又是他,我有什么離譜的想法總是第一時間和他分享討論,他也就經(jīng)常成為我離譜想法的第一個受害者。
我找吳迪要了他的五十張照片,接下來……
如果是AI,應(yīng)該可以補(bǔ)充出“我訓(xùn)練了一個吳迪的風(fēng)格庫”這件事,但既然我都有兩個人的風(fēng)格庫了,完全可以再大膽一點(diǎn)。
我找了一張?zhí)├铡に雇蛱睾湍蟹劢z的合影。

然后在“條件生圖”模式下進(jìn)行了這樣的描述:
“泰勒·斯威夫特穿著黑色衛(wèi)衣,背著一個黑色背包,扎著馬尾辮,和一個男人合影。”
得到了這么一張圖:

似乎有點(diǎn)假?是有點(diǎn),而且你都不用認(rèn)真看就會發(fā)現(xiàn)這個男人的頭發(fā)其實(shí)和泰勒的頭發(fā)是一樣的,有的地方甚至還連在了一起,但讓我們先繼續(xù)吧。
我在“圖生圖”模式中用畫筆涂滿了男人的臉,表示這個地方是AI用功的地方,再疊加上吳迪的風(fēng)格庫……
然后我就得到了一張……嗯……不太像,但似乎還有點(diǎn)那么回事的合照,不過再用“美圖秀秀”加點(diǎn)顆粒、再加個拍立得效果,我們就得到了:

這么一張合照。
這張合照有兩面性。
從好的方面看,AI首先是我們創(chuàng)造力的工具,我們可以通過AI讓自己的創(chuàng)意落地,去完成各種各樣有趣的工作;
從壞的方面看,雖然這張圖片依然很假,但它遲早會發(fā)展到能生成出一張讓人分不清到底是不是真正的照片的圖片。人們“制造真實(shí)”的能力變得越來越強(qiáng),成本也越來越低,結(jié)合此前“造黃謠”的話題,如果人們用這種“制造真實(shí)”的能力相互攻擊,情況也許不至于“不堪設(shè)想”,但至少會變得相當(dāng)棘手。
當(dāng)“有圖也無真相”、乃至“有視頻也無真相”的時候,虛假越來越接近真實(shí)的時候,真實(shí)生存的余地越來越小的時候,真實(shí)就會越來越奢侈。這就好比當(dāng)在線交流、網(wǎng)絡(luò)會議越來越方便的時候,線下的見面就越來越鄭重。
之前在GPT的文章中,我說我們要珍惜我們還有用的日子,現(xiàn)在我又要說了:珍惜我們真假還如此容易分辨的日子,珍惜我們還擁有真實(shí)的日子。
祝好夢