微調(diào)真香,國內(nèi)科技博主竟然在用國產(chǎn)大模型生成系列漫畫女主角


有一說一,《微調(diào)真香,漫畫科技博主竟然在用國產(chǎn)大模型生成系列漫畫女主角》不是標(biāo)題黨。
連我也不得不相信,作為“親愛的數(shù)據(jù)”創(chuàng)始人,我確實在用人工智能大模型生成自家特有風(fēng)格的漫畫。
市面上,海內(nèi)外,用Midjourney或者文心一格之類的文生圖的能力生成精美圖畫這件事似乎也沒有什么稀奇。
日常聊天,有人動不動就說:“你讓人工智能給你畫?!?/p>
這話我接不住,并且很想回懟。
你能你上呀,你讓人工智能給你畫。
文生圖首先得會“咒語”。
這里的“咒語”是指提示詞Prompt。
也許有人天生就會用“咒語”。
或者也許有人通過練習(xí)能將“咒語”用得出神入化。
很可惜,我沒有天賦。
很遺憾,Midjourney的咒語我練了很久,水平依然很菜。
完了,霍格沃茨四大學(xué)院,我今年鐵定考不上了。
不過,聊以自慰,在文生圖的時候,讓人工智能“陪你畫著玩”和“按職業(yè)要求畫” 完全是兩回事。
后者很難。

1.風(fēng)格穩(wěn)定,繼續(xù)畫出我們已有的漫畫風(fēng)格;
上一張宮崎駿,下一張葫蘆娃,這樣不行。
2.人物穩(wěn)定,主角是“同一個IP人物”。
做到這一點,意味著微調(diào)后的模型認(rèn)識我們科技漫畫故事里的“女主角”,這里要隆重介紹一下,她叫做“小桔子”。
實際上,我們還有配角團隊,就是五仁。沒錯,就是五仁月餅的那個五仁。和世界上所有的配角一樣,我們希望五仁能夠豐富故事內(nèi)容,完成特定任務(wù),推動情節(jié)發(fā)展,以及搞笑擔(dān)當(dāng)。
不過,我們決定要微調(diào)模型的時候,五仁的角色還沒有確定,或者說,沒有完全定型。

3.質(zhì)量穩(wěn)定,丑圖不行。
這只是三個重點,對于大部分漫畫團隊的來說,比較有共通性。
團隊肯定有自己的審美偏好,所以,次重點也有很多:
比如,筆觸力度一致,不能有的畫線條粗,有的畫,線條細。
比如,不要大面積使用艷麗色彩。
比如,少量著色
……
反正,有圖你自己看就行了,圖都在文章里。
生成的科技漫畫,要把這些要求都滿足,可太難了。
好在,譚老師我對人工智能的理解有點深,高低能拿得出手的文章寫了二十來萬字。
借機,插播一條硬廣:

這時候,我判斷:需要上微調(diào)模型了。
這里說的微調(diào)模型,是指,在基礎(chǔ)大模型的基礎(chǔ)上,使用“親愛的數(shù)據(jù)”私有數(shù)據(jù)(漫畫圖片)訓(xùn)練出來的微調(diào)模型。
雖然不知道結(jié)果如何,但是“微調(diào)”這只“螃蟹”,我先吃為敬。
對微調(diào)后的模型效果有何期待呢?
我曾經(jīng)聽到一些專業(yè)的畫家說,人工智能可以激發(fā)靈感。要我說,膽子再大一點。
微調(diào)模型能夠生成特定風(fēng)格的漫畫,情況不外乎三種,
第一,能直接生成我們所需要的科技文章中的配圖。這是最好的情況,拿來就用。
第二,對圖畫少量改動后,就能用。
第三種最糟糕,對圖進行大量手工修改。
那種不能用的就直接刪了,省的占用存儲空間。
為了保護商業(yè)秘密和知識產(chǎn)權(quán),文章中均以“我們”來模糊處理團隊內(nèi)部配合和分工的細節(jié)。

1.基礎(chǔ)模型:武漢人工智能研究院的“紫東太初”國產(chǎn)大模型;
2.原始數(shù)據(jù):科技科普漫畫已經(jīng)發(fā)布了二十多期。對“親愛的數(shù)據(jù)”老讀者而言,原始數(shù)據(jù)不需要介紹,全部來自原創(chuàng)漫畫系列。
1.?是喜,還是悲?AI竟幫我們把Office破活干完了
2.?AI算法是兄弟,AI運維不是兄弟嗎?3.?大數(shù)據(jù)的社交牛氣癥是怎么得的?4.?AI for Science這事,到底“科學(xué)不科學(xué)”?5.?想幫數(shù)學(xué)家,AI算老幾??6.?給王心凌打Call的,原來是神奇的智能湖倉7.?原來,知識圖譜是“找關(guān)系”的搖錢樹?
8.?為什么圖計算能正面硬剛黑色產(chǎn)業(yè)薅羊毛?9.?AutoML:攢錢買個“調(diào)參俠機器人”?10.?AutoML:你愛吃的火鍋底料,是機器人自動進貨11. 強化學(xué)習(xí):人工智能下象棋,走一步,能看幾步?12.?時序數(shù)據(jù)庫:好險,差一點沒擠進工業(yè)制造的高端局13.?主動學(xué)習(xí):人工智能居然被PUA了?14.?云計算Serverless:一支穿云箭,千軍萬馬來相見
15.?數(shù)據(jù)中心網(wǎng)絡(luò):數(shù)據(jù)還有5納秒抵達戰(zhàn)場16.??數(shù)據(jù)中心網(wǎng)絡(luò):遲到不可怕,可怕的是別人都沒遲到17. ChatGPT大火,如何成立一家AIGC公司,然后搞錢?
18.?ChatGPT:絕不欺負文科生19.?ChatGPT觸類旁通的學(xué)習(xí)能力如何而來??20.開源大模型“二號羊駝”駕到,天下有變,到底怎么變?
不過,值得注意的是,我拿出來的私有數(shù)據(jù)都是黑白線稿.
從全部數(shù)據(jù)中挑了240張,并且都進行了標(biāo)注。
標(biāo)注方法就是給每個圖片都給出了一句描述性的句子,我有一部分?jǐn)?shù)據(jù)是彩圖,但是沒有拿出來訓(xùn)練。原因是,從實用的角度出發(fā)。黑白線稿更好修改。
風(fēng)格上,追求簡約,如果線稿能夠把科技科普內(nèi)容說清楚,就不費事復(fù)雜上色。
3.訓(xùn)練時間:5小時;
4.訓(xùn)練資源:華為昇騰910 ,2張 32G的NPU;
5.訓(xùn)練類型:小樣本微調(diào);
6.應(yīng)用界面:開源的Gradio簡單搭建,不是十分穩(wěn)定,有時候也會報錯;
step是引導(dǎo)步數(shù),越多生成的圖細節(jié)越多,會更豐富,但也可能會起到反效果;scale是引導(dǎo)力度,scale越大圖像內(nèi)容跟語義更相關(guān),但過大會導(dǎo)致圖像質(zhì)量下降;seed是隨機種子,改變seed會在保證語義的前提下,調(diào)整圖像的構(gòu)圖;

舊版應(yīng)用界面有些不趁手的地方,我們經(jīng)過反復(fù)討論,幾輪對齊需求。(字少,事多。)
我們更新了一版應(yīng)用界面,可以調(diào)的維度增多了,更能“探索”出大模型的能力。
俗稱,順手了。
7.提示詞長度:55個字。
8.每次可生成張數(shù):7張。


這部分應(yīng)該是最有趣的。
借用此前的比喻,帶著私有數(shù)據(jù)上門訓(xùn)練,好比提著自己最喜歡的獨門秘方餃子餡,直接到店,向餐廳要求定制化服務(wù)。
一般說來,模型微調(diào)屬于ToB服務(wù)。
但,凡事無絕對。
我們科技漫畫中的女主人公,也是我們漫畫的IP人物,在提示詞中使用“SKS小女孩”指代“小桔子”。
讓模型學(xué)習(xí)“認(rèn)識”小桔子,再生成出她的相關(guān)漫畫。

業(yè)務(wù)在發(fā)展,小桔子的形象也在迭代。
在訓(xùn)練數(shù)據(jù)中,第二代和第三代小桔子的眼睛差距比較大,所以大模型生成的眼睛的失敗率非常高??赡艽竽P鸵埠芾Щ蟮降讓W(xué)哪個。
造成這個糟糕問題的原因是,親愛的數(shù)據(jù)團隊的業(yè)務(wù)也在迅速迭代,我們需要調(diào)整小橘子的形象,迭代時期正好和訓(xùn)練時間相撞。
但是,業(yè)務(wù)不可能停下來。
不得不承認(rèn),想用新技術(shù),踩坑是避免不了的。

第一代:漫畫丨AI for Science這事,到底“科學(xué)不科學(xué)”?
第二代:漫畫云計算Serverless:一支穿云箭,千軍萬馬來相見
第三代:老店迎新客:向量數(shù)據(jù)庫選型與押注中,沒人告訴你的那些事
眾所周知,基礎(chǔ)模型非常重要。
因為是小樣本訓(xùn)練,數(shù)據(jù)以小桔子的形象為主,樣本數(shù)據(jù)中沒有出現(xiàn)的大千世界的各種事物,比如企鵝,獨角獸,龍,赑屃,只能依靠基礎(chǔ)模型的能力。

雖然眼睛總是失敗,但我們認(rèn)為,小橘子的臉型和發(fā)型生成得還不錯,對此,武漢人工智能研究院的專家給我的講解是:
學(xué)習(xí)小橘子的特征既包括風(fēng)格,也包括樣貌。比如,學(xué)習(xí)一個女生的樣貌,10張圖就能學(xué)到生神態(tài)特征。
妙鴨APP生成優(yōu)美藝術(shù)照片的原理也是如此,換妝的時候(場景),不需要學(xué)太多特征。




結(jié)合用文生圖模型的心路歷程,從經(jīng)濟學(xué)的角度談?wù)勔韵聨c:
1.?大模型不能代替主創(chuàng)思想。
如果你腦子里什么都沒有,大模型也沒辦法代替你思考。我們的方法是,你有了想法,再去引導(dǎo)大模型生成。
2.文生圖模型能讓主創(chuàng)團隊的工作成果變得更多。
對于創(chuàng)意團隊來說,好作品多,自然業(yè)界影響力大。同樣的團隊規(guī)模,能出更多的活,紫東太初大模型可以成為我們團隊勞動力的補充。
3.施咒能力是一種必備的,很值錢,很有技術(shù)含量的技能。
只要提示詞這個模式?jīng)]有被革命,有文生圖需求的人都應(yīng)該盡快學(xué)。
圖文模型不像語言模型那樣情商高,就算你做得不好,它也會有禮貌的安撫你。
圖文模型一切用“結(jié)果”說話,圖不行,就是不行。
咒語水平不行會限制模型能力的施展。上手一個新模型,對“咒語”的使用會有個“適應(yīng)期”。
對模型的熟悉程度,也影響咒語水平。
不同模型,咒語手法有所不同。比如,Midjouney上的部分經(jīng)驗是可以用在“紫東太初”上,但不能完全照搬。
就算同一家公司的模型,不同版本(比如版本升級),也可能會讓“施咒者”從熟練變得生疏。
對紫東太初大模型的評價:
本質(zhì)上講,這不是一個大模型測試。
我們甚至也無法做出橫向比較,用私有數(shù)據(jù)微調(diào)過的模型,只用了這一個。
我們干這件事情的目的是希望用“紫東太初”大模型做幫手,增大產(chǎn)量,更快出品。
看它能從多大程度上,成為“新同事”。
以目的作為評價標(biāo)準(zhǔn),我們認(rèn)為紫東太初微調(diào)版本的模型有以下特點:
1. 和Midjourney有差距,但也有自己的特色。
2.配色水平不錯,微調(diào)模型的數(shù)據(jù)是黑白線稿,所以配色能力來自于基礎(chǔ)大模型。但是,顏色艷麗的高飽和色的配色水平容易翻車。
3.遠景背景的生成水平出乎意料,尤其對四字成語或者四字形容詞有一定的理解力,四字成語做提示詞效果不錯。比如萬家燈火,深邃廣袤。
4.特有的“留白”意境,給模型留下想象空間。
讓模型根據(jù)學(xué)到的知識,自動完善圖片。(比如,自動上色配色,比如,設(shè)計人物動作)
如有必要,我們會拿出更多的數(shù)據(jù),進行下一次微調(diào)。
所以,這篇文章也許會出后續(xù)。
最后,還是那句話,人不會被AI取代,而是不會用AI的人才會被取代。
One More Thing
給AI工程師的悄悄話:
第一件事,整理數(shù)據(jù)。
雖然是提著“餃子餡(私有數(shù)據(jù))”上門,但是標(biāo)注好的數(shù)據(jù),仍然需要再次清理,轉(zhuǎn)化成需要的格式,去掉圖片標(biāo)注內(nèi)容中不需要的數(shù)字。
第二件事,微調(diào)。
一般而言,小樣本的微調(diào),模型學(xué)習(xí)幾遍就學(xué)會了。
過程是,手寫模型訓(xùn)練工程代碼,調(diào)整學(xué)習(xí)率等參數(shù),調(diào)整“凍結(jié)和放開”的參數(shù),紫東太初是多模態(tài)大模型,需要激活模型不同區(qū)域。
微調(diào)過程中,需要“平衡”模型的融合性。
既不能讓模型過度訓(xùn)練,從而導(dǎo)致原有信息喪失(遺忘舊知識),也不能因訓(xùn)練不足夠而沒有學(xué)會。
多模態(tài)大模型涉及語言和視覺模型,為了保證模型均衡性,同時進行動態(tài)調(diào)整。
訓(xùn)練過程中,根據(jù)樣本的數(shù)量,樣本學(xué)習(xí)的難易程度不同等因素,需要調(diào)整語言和視覺大模型學(xué)習(xí)時間。
比如,某一領(lǐng)域數(shù)據(jù)量較少,學(xué)習(xí)過程中出現(xiàn)語義偏移,模型總在重復(fù)學(xué)習(xí)一類東西,會把之前學(xué)習(xí)的內(nèi)容給忘了。我們的這次微調(diào),語義學(xué)習(xí)的時間短,信息量在圖里,所以要多學(xué)圖片。語義學(xué)習(xí)的時間短,視覺學(xué)習(xí)長。
第三件事,測試。
第四件事,部署服務(wù)上線,Gradio快速生成應(yīng)用。
然后,就沒有然后了。

最后,再介紹一下主編自己吧,我是譚婧,科技和科普題材作者。為了在時代中發(fā)現(xiàn)故事,我圍追科技大神,堵截科技公司。偶爾寫小說,畫漫畫。生命短暫,不走捷徑。個人微信:原創(chuàng)不易,多謝轉(zhuǎn)發(fā),還想看我的文章,就關(guān)注“親愛的數(shù)據(jù)”。??
