100年前這個人就預(yù)言了AI繪畫?大年夜聊AI~
先給各位拜個年,雖然估計能點(diǎn)進(jìn)來的人也早不在乎這個了。這里主要是總結(jié)一些最近了解到的內(nèi)容,給忙著過年但還在想著AI發(fā)展到哪一步這件事的朋友們打個底。
Stable?Diffusion 3.0可能已經(jīng)在進(jìn)行訓(xùn)練了,而我這兩天才開始通過一些英文文章了解到和Stable DIffusion原理有關(guān)的東西。這方面我準(zhǔn)備整理一下單獨(dú)發(fā),就是在非計算機(jī)專業(yè)和不看代碼和數(shù)學(xué)公式的前提下,我們外行能理解到到的一種比較大層面的原理解釋。其實在這事情上,有很多老外寫的英文簡明解釋可供參考,而且我還發(fā)現(xiàn),arXiv.org上的CS(計算機(jī)科學(xué))論文沒有那么難看懂,很多都是在講AI和社會層面的事情,即使是純技術(shù)方面的東西,不看那些代碼和數(shù)學(xué)公式也能從文本中了解到它的用途。這個資源應(yīng)該是了解當(dāng)下AI技術(shù)進(jìn)展最快的方式了。這個網(wǎng)站不用教育網(wǎng)等特殊線路,可以隨便上隨便看。實際上幾乎所有和Stable Diffusion中的重要模型和概念有關(guān)的論文都在上面。雖然沒有同行評審,但CS的論文很多都會有Demo的,所以我看國外社區(qū)的人都很看重這里的文章。某乎說這里是用來占坑的,有成果都是先發(fā)這里再投學(xué)術(shù)期刊(萬一幾個月以后被拒了還是能保留原創(chuàng)證明)。反正就是只要你能看懂英文,就不要放過這個網(wǎng)站,比看自媒體上那些拼湊起來的二手信息強(qiáng)。
多說一句,以后單靠翻譯肯定是越來越難生存的,這一行的消失可能還真不是天方夜談。尤其是口譯,如果AI能用你自己的聲音來說外語,對方又何必要聽第三個人的聲音呢?但是語言技能是絕不會被淘汰的,英語的信息和交流優(yōu)勢仍然有效,因為以后認(rèn)真給你翻譯和校對的人會越來越少,而機(jī)翻又不能保證100%無誤。所以各位還是別放棄英語,只是不要再鉆口音和考證的牛角尖了。
標(biāo)題里說的,就是下面這張圖,這真的是100年前的漫畫,那時美國的電力系統(tǒng)才剛剛開始普及,這位漫畫家已經(jīng)開始想象讓“主意電機(jī)” Idea Dynamo?和“卡通電機(jī)”?Cartoon Dynamo?替他完成畫畫工作了(罐子里是墨水)。左下角寫著,“到2023年我們所有的工作都是靠電力完成的。"而右邊的漫畫家在打電話約朋友一起去釣魚。

膜拜一下這位漫畫家!所以說很多科幻小說搞不好真的就是在預(yù)言未來。其實最后的結(jié)果可能都是一樣的,只是技術(shù)路徑不可預(yù)測吧。

如微軟CEO所說的2023年五點(diǎn)預(yù)測之一提到的,AI技術(shù)正在進(jìn)入S型上升軌道,用他的原話講,互聯(lián)網(wǎng)在全球進(jìn)入主流用了30年,云技術(shù)和移動互聯(lián)網(wǎng)用了15年,而AI只用了幾個月。Stability?AI的CEO也說我們現(xiàn)在所處的階段是一種指數(shù)級的發(fā)展。這就是一場Revolution,而且是一場所有人都沒有準(zhǔn)備好迎接的變革。AI對全社會產(chǎn)業(yè)結(jié)構(gòu)的改造是肯定會發(fā)生的,而且速度會非常地快。
微軟、谷歌和亞馬遜的萬人大裁員,除了新冠居家時代的流量紅利消退和經(jīng)濟(jì)衰退大環(huán)境之外,AI的沖擊也是一個很重要的原因。谷歌就明確表示裁員是為了重整結(jié)構(gòu)以滿足AI時代的需求。不過根據(jù)某咨詢公司的報告,很多非互聯(lián)網(wǎng)行業(yè)大公司的IT部門,其實最近在推遲2023年與人工智能有關(guān)的新項目投資,因為現(xiàn)在的經(jīng)濟(jì)下行壓力還是比較大。
領(lǐng)頭羊Stable Diffusion的麻煩,除了藝術(shù)家團(tuán)體的集體訴訟和政策游說(他們已經(jīng)眾籌了22萬美元)外,還有了圖庫巨頭Getty?Images的訴訟挑戰(zhàn)。和同行ShutterStock、Adobe在AI生成模型上的加速追趕不同,Getty?Images在這方面相對保守,盡管他們也有AI生成方向的合作伙伴(BRIA),但一直禁止AI藝術(shù)品在自己的平臺上出現(xiàn)。Adobe最近也否認(rèn)了會用用戶圖像進(jìn)行訓(xùn)練的傳聞。
提到藝術(shù)家的抱怨,其實他們的抵制目標(biāo)不止SD、Midjourney和Artstation,還包括Deviantart,因為后者自己也上線了一個AI生成模塊。而且他們對SD的指責(zé)是”不負(fù)責(zé)任地放出開源模型“。這些藝術(shù)家可能不知道,其實SD里的核心模塊之一CLIP,是來自O(shè)penAI的開源模型,而且使用的訓(xùn)練集是Open AI的專有數(shù)據(jù)集。Sd v2換到了量級更大的OpenCLIP上,它的訓(xùn)練集就是沒有經(jīng)過I篩選的,所以畫質(zhì)有所下降。而能讓AI畫出很相似作品的Dreambooth“插件”,其實是來自谷歌的開源模型。這么深挖下去的話,是不是應(yīng)該把微軟和谷歌也拉進(jìn)戰(zhàn)場?
我對AI繪畫爭議的看法還是一樣的,提供不出解決思路的抵制是沒有意義的,一切只能在發(fā)展中摸索。從去年開始的這一輪爆炸式發(fā)展是所有人都始料未及的,甚至連“AI生成技術(shù)”都是生造出來的詞匯。了解到一定原理的人多半會贊同SD的開源路線,尤其是像我這樣的窮人?;赟D最便宜的云應(yīng)用現(xiàn)在是一個月免費(fèi)1000張圖,你還要啥自行車?但愿AI技術(shù)能一直這樣流程透明和技術(shù)開源下去,否則這一輪產(chǎn)業(yè)變革中的弱勢群體,可能會比以前更難受。
最后提一下剛發(fā)的視頻,這個模型是利用Gpt-3+SD1.5做的一組文本指導(dǎo)下的圖生圖數(shù)據(jù)集訓(xùn)練而成的,它的效果明顯比現(xiàn)有的圖生圖和Depth-Image來得有用得多。我六個月前在Disco Diffusion里折騰半天都搞不出來的東西,這個模型已經(jīng)可以一步完成了。發(fā)展就是這么快。
我還看到一個有趣的項目是訓(xùn)練AI畫你自己的風(fēng)格,這個大概才是100年前那位漫畫家,也是一般藝術(shù)家們最想要的AI了。不過那個Demo好像暫時運(yùn)行不了。后面再關(guān)注了。
(完)