圖文實(shí)錄|瀾舟科技合伙人李京梅:基于預(yù)訓(xùn)練模型的 AIGC 技術(shù)與應(yīng)用實(shí)踐
2023年1月6日,由稀土掘金技術(shù)社區(qū)與 Intel 聯(lián)合發(fā)起的第一屆「掘金未來(lái)大會(huì)」在北京成功舉行。
大會(huì)上,瀾舟科技合伙人、首席產(chǎn)品官李京梅介紹了瀾舟科技的孟子輕量化預(yù)訓(xùn)練模型,及其已經(jīng)在 GitHub、 Hugging Face 以及 ModelScope 等多個(gè)社區(qū)開(kāi)源,提供近 20 個(gè)模型,涉及閱讀理解、文本生成、多模態(tài)、金融等等各個(gè)方面,企業(yè)均可以下載使用。
此外,李京梅通過(guò)營(yíng)銷(xiāo)文案寫(xiě)作、文學(xué)輔助寫(xiě)作、基于情節(jié)配圖三大場(chǎng)景進(jìn)一步展現(xiàn)基于預(yù)訓(xùn)練模型的 AIGC 技術(shù)的實(shí)踐應(yīng)用。她表示,人類(lèi)應(yīng)持續(xù)提升創(chuàng)造力,AI 將通過(guò)提升產(chǎn)業(yè)效率的方式來(lái)幫助人類(lèi)更好地創(chuàng)造價(jià)值。

以下為瀾舟科技合伙人、首席產(chǎn)品官李京梅演講全文:
預(yù)訓(xùn)練模型標(biāo)志著 NLP 進(jìn)入了工業(yè)化實(shí)施階段
瀾舟科技正式成立于 2021 年 6 月,是一家初創(chuàng)企業(yè),基于預(yù)訓(xùn)練模型做 NLP 的技術(shù)創(chuàng)新,驅(qū)動(dòng)在各個(gè)垂直領(lǐng)域落地。今天也將重點(diǎn)聚焦泛互聯(lián)網(wǎng)領(lǐng)域,尤其是現(xiàn)在較火的 AIGC,看看大模型在具體領(lǐng)域中可以做哪些事情。
技術(shù)發(fā)展之上是一個(gè)簡(jiǎn)單的時(shí)間軸。80 年代,是一個(gè)基于符號(hào)、統(tǒng)計(jì)等等相關(guān)模型的時(shí)代,到了 2010 年,開(kāi)始進(jìn)入深度學(xué)習(xí)時(shí)代。在 NLP 自然語(yǔ)言處理的領(lǐng)域中,一個(gè)最大的技術(shù)突破是 2017 年谷歌出現(xiàn)了 Transformer 技術(shù),一切就開(kāi)始變得不一樣了。再到 2019 年,閱讀理解 AI 第一次超越人類(lèi),以及后來(lái)出現(xiàn)的一些大模型,包括目前廣泛應(yīng)用的 OpenAI GPT-3,以及預(yù)期 2023 年 GPT-4 什么時(shí)候會(huì)出現(xiàn)等等。
從最早的運(yùn)算智能,如大數(shù)據(jù)、云計(jì)算等等都屬于剛需了,以及感知智能,像視覺(jué)、語(yǔ)音都已經(jīng)非常成熟。但現(xiàn)在為什么又談?wù)J知智能?認(rèn)知智能,是你看到了,聽(tīng)到了,有沒(méi)有懂?有沒(méi)有理解?是不是能夠思考?能夠做決策?......如今,談到 AIGC ,就是 AI 創(chuàng)作內(nèi)容,你能不能看到了,聽(tīng)懂了,也理解了,更能創(chuàng)造內(nèi)容了。因此,現(xiàn)在是從感知智能演變到認(rèn)知智能,甚至是創(chuàng)造智能的階段。
此次提到的大模型是一個(gè)預(yù)訓(xùn)練模型。什么是預(yù)訓(xùn)練?就是對(duì)互聯(lián)網(wǎng)公開(kāi)的、海量的數(shù)據(jù)去做無(wú)監(jiān)督的訓(xùn)練,從而讓模型對(duì)特定任務(wù)的學(xué)習(xí)變得輕松。而不是傳統(tǒng)的靠人去做標(biāo)注。好處在于,模型的水平已經(jīng)提得很高,落地時(shí)就會(huì)基于某一個(gè)垂直領(lǐng)域的數(shù)據(jù),或者某一客戶(hù)的數(shù)據(jù),只需做微調(diào),落地就非常敏捷了,這時(shí)候客戶(hù)要提供的數(shù)據(jù)比傳統(tǒng)機(jī)器學(xué)習(xí)從 0 開(kāi)始做一個(gè)模式要更快。也就是說(shuō),預(yù)訓(xùn)練模型標(biāo)志著 NLP 進(jìn)入了工業(yè)化實(shí)施階段,可以核算成本,也可以作為生意,客戶(hù)也能看到價(jià)值。

瀾舟科技有一個(gè)技術(shù)品牌叫孟子,專(zhuān)注于中國(guó)的客戶(hù)、市場(chǎng)以及中文,在基礎(chǔ)模型上,自研了一個(gè)孟子輕量化預(yù)訓(xùn)練模型。簡(jiǎn)單來(lái)講,做了三件事:
一是模型優(yōu)化。在模型的架構(gòu)上做了性能優(yōu)化、任務(wù)構(gòu)造等等;
二是知識(shí)增強(qiáng)。雖然是個(gè)預(yù)訓(xùn)練,但在不同的領(lǐng)域需要具備一定的領(lǐng)域的知識(shí),因此基于知識(shí)圖譜、語(yǔ)言學(xué)等方面做知識(shí)增強(qiáng);
三是數(shù)據(jù)增強(qiáng)。雖然這是一個(gè)通用預(yù)訓(xùn)練,但還是會(huì)有一些任務(wù),比如閱讀理解、分類(lèi)、長(zhǎng)短文本理解等等,還是會(huì)在一定的大范圍內(nèi)做相關(guān)的數(shù)據(jù)增強(qiáng)。
因此,孟子輕量化預(yù)訓(xùn)練模型不僅是一個(gè)模型,還是一系列的若干模型。2022年,孟子輕量化技術(shù)邁上新臺(tái)階:登頂 ZeroCLUE 和 FewCLUE 榜單,這使得孟子預(yù)訓(xùn)練模型是輕量化的,真正落地的體積要求的數(shù)據(jù)量都會(huì)小,經(jīng)濟(jì)且快速地適配。

除此之外,孟子輕量化多任務(wù)模型已經(jīng)在 GitHub、 Hugging Face 以及 ?ModelScope 等多個(gè)社區(qū)開(kāi)源,提供近 20 個(gè)模型,涉及閱讀理解、生成、多模態(tài)、金融等等各個(gè)方面,企業(yè)均可以下載使用。
面向三大場(chǎng)景的 AIGC 應(yīng)用
雖然瀾舟科技有大模型、NLP 等相關(guān)技術(shù),但卻十分注重在垂直領(lǐng)域或是場(chǎng)景化的前提下進(jìn)行落地。此次分享則聚焦?fàn)I銷(xiāo)文案寫(xiě)作、文學(xué)輔助寫(xiě)作、基于情節(jié)配圖這 3 個(gè)場(chǎng)景展開(kāi) AIGC 應(yīng)用:
1、文學(xué)輔助寫(xiě)作場(chǎng)景。瀾舟與中文在線(xiàn)、17K 小說(shuō)等網(wǎng)文平臺(tái)合作過(guò)程中聽(tīng)到許多實(shí)際的需求,為此,瀾舟也提供了 4 類(lèi)服務(wù):
續(xù)寫(xiě)。用戶(hù)開(kāi)頭寫(xiě)前文,機(jī)器往下續(xù)寫(xiě),這是一種很常見(jiàn)的交互式寫(xiě)作;
基于關(guān)鍵字生成。比如用戶(hù)語(yǔ)文不太好,但想出了許多辭藻,一定要放到作文中,卻串不成句子,那么基于關(guān)鍵詞就可以讓 AI 幫助潤(rùn)色,語(yǔ)法也十分通順;
實(shí)體渲染。這是網(wǎng)文創(chuàng)作中剛需的需求,這里的實(shí)體指的是一個(gè)人物、物體等等,比如,現(xiàn)代男性、古代美女、或者一種法器,基于關(guān)鍵詞描寫(xiě)實(shí)體;
自定義模板。基于用戶(hù)自定義模板做完型填空、填詞造句。
實(shí)際上,瀾舟所提供的能力已經(jīng)在中文在線(xiàn)和 17K 小說(shuō)平臺(tái)落地實(shí)現(xiàn),賦能平臺(tái)作者寫(xiě)作能力。比如,瀾舟的能力開(kāi)放在 17K 小說(shuō)的作者寫(xiě)作界面中,是一個(gè)非常跨界的應(yīng)用,都是基于孟子預(yù)訓(xùn)練模型中的文本生成的能力,以及利用網(wǎng)文的相關(guān)語(yǔ)料的落地,同時(shí),交付也非常輕,就是一個(gè)接口,然后集成到 17K 的作者平臺(tái)上。
瀾舟還做了一個(gè) ?To C 的小程序,叫熊貓小說(shuō)家,實(shí)際上就是故事接龍。用戶(hù)作為一個(gè)發(fā)起者先要?jiǎng)?chuàng)建故事,構(gòu)思情節(jié)給到一個(gè)故事梗概,然后再給出一些關(guān)鍵詞,就可以隨機(jī)生成文字。如果用戶(hù)屬于社牛型,還可以把小說(shuō)公開(kāi)到廣場(chǎng),誰(shuí)想來(lái)一起往下寫(xiě)都可以??梢哉f(shuō),瀾舟在文學(xué)輔助寫(xiě)作上的 AIGC 的能力放到了小程序中,有興趣的都可以試一試。

2、營(yíng)銷(xiāo)文案寫(xiě)作場(chǎng)景。營(yíng)銷(xiāo)文案其實(shí)是瀾舟做得較早的一個(gè)落地應(yīng)用,目前聚集美妝和汽車(chē)領(lǐng)域。用戶(hù)可以從兩個(gè)領(lǐng)域中進(jìn)行選擇,系統(tǒng)中有寫(xiě)內(nèi)容、生成題目、改寫(xiě)等等方面,但都需要用戶(hù)給到一定的關(guān)鍵字。到這里,大家會(huì)發(fā)現(xiàn)對(duì)于模型、技術(shù)而言,寫(xiě)什么都比較類(lèi)似,關(guān)鍵在于在不同領(lǐng)域中,瀾舟有不同的數(shù)據(jù),所以關(guān)鍵詞不一樣,也就很快能適配到不同的應(yīng)用的領(lǐng)域,但背后的技術(shù)是相通的,不用重新做一個(gè)完全不同的技術(shù)體系。比如,汽車(chē)領(lǐng)域中,可能涉及到一些專(zhuān)業(yè)的知識(shí)圖譜,有品牌、有款型等等,當(dāng)然,這只是一個(gè)體驗(yàn),依然有不足指出,但如果有定制合作的需求,效果肯定比線(xiàn)上的試用 demo 更好。

一年前,瀾舟與數(shù)說(shuō)故事開(kāi)展合作,數(shù)說(shuō)故事做前臺(tái),瀾舟做背后的引擎,打造了一款自動(dòng)化寫(xiě)作產(chǎn)品,名為 content-note.com 智能文案,分成 “選擇模板-輸入關(guān)鍵詞-生成結(jié)果” 三個(gè)步驟走。此外,還有瀾舟論文助寫(xiě)(LPA),主要是基于用戶(hù)提供的關(guān)鍵詞生成完整的句子,以及根據(jù)前文生成下一個(gè)句子供作者參考,現(xiàn)在瀾舟還將其拓展到人工智能的英文論文寫(xiě)作,參加 NLP 、 ACL 等領(lǐng)域頂會(huì)的研究人員使用,與 ChatGPT 相比,寫(xiě)出的內(nèi)容更具論文范。

以上兩個(gè)場(chǎng)景都是文本生成類(lèi)應(yīng)用,可以看到瀾舟科技作為一個(gè)平臺(tái),它的底層是大模型以及算法、技術(shù)和數(shù)據(jù)等等,在具體領(lǐng)域中落地時(shí),會(huì)有不同垂直領(lǐng)域的數(shù)據(jù),這時(shí)候就出現(xiàn)了分支,還有一些針對(duì)文本生成相關(guān)的句子,最后都會(huì)歸納成瀾舟文本生成平臺(tái)。
同時(shí),整個(gè)文本生成引擎功能有 6個(gè)特點(diǎn):
多屬性可控文本生成,通過(guò)關(guān)鍵字、主題、完型填空、實(shí)體渲染等控制屬性達(dá)成 AI 可控性的目的;
多樣化的文本生成形式,基于已有文本的續(xù)寫(xiě),以及基于關(guān)鍵詞、標(biāo)題、表格數(shù)據(jù)的文本擴(kuò)寫(xiě),使用更加靈活;
基于知識(shí)圖譜的文本生成,用戶(hù)可以自定義知識(shí)圖譜,提高生成內(nèi)容的事實(shí)正確性;
內(nèi)容和風(fēng)格定制化,基于用戶(hù)數(shù)據(jù)構(gòu)建專(zhuān)屬文本生成引擎;
文本自動(dòng)評(píng)測(cè)系統(tǒng),可以評(píng)測(cè)文本正確性、邏輯連貫性等等;
多行業(yè)領(lǐng)域支持,比如營(yíng)銷(xiāo)、金融、新聞、醫(yī)療、教育等眾多行業(yè)。
3、基于情節(jié)配圖。雖然瀾舟科技主打不是做圖,但文、圖有很多相通性,尤其是在模型底層向量化之后,無(wú)論是文字、語(yǔ)音還是圖片,可比性和相似度變得非常的容易。瀾舟科技在 文-圖生成模型 Stable Diffusion 基礎(chǔ)上進(jìn)一步做垂直領(lǐng)域的落地,這里面分了幾個(gè)模型,有圖像編碼、解碼以及中間去噪的一個(gè)模型。如下圖所示,左邊是一個(gè)飛馬,右邊一個(gè)飛著的斑馬,中間加的字就是飛在天上的斑馬,最后飛馬身長(zhǎng)多出來(lái)“黑色條紋”變成了斑馬,因此,文字進(jìn)來(lái)也會(huì)進(jìn)行編碼,進(jìn)去到去噪的模型中,大概就是這么一個(gè)原理。

那么,瀾舟科技具體在 Stable Diffusion 基礎(chǔ)上做了什么?首先是文到圖生成,比如,給小說(shuō)中的一段話(huà)配圖;其次是以圖生圖,比如,一位小朋友想要畫(huà)這樣一幅畫(huà):一只蝸牛,背上背著一棟房子,天上有彩虹。但小朋友畫(huà)不好,那么,基于小朋友的畫(huà)可能有不同畫(huà)風(fēng)的 AI 生圖;最后是以文控圖,比如,先生成一張“一個(gè)穿裙子的小女孩”的圖片,在此基礎(chǔ)上,還可以是在唱歌、在跳舞、在拉小提琴等等,通過(guò)文字再次控制原圖片生成。

以上都是 Stable Diffusion 已經(jīng)開(kāi)源的模型以及常見(jiàn)的一些場(chǎng)景,其中還有在產(chǎn)品化、工具化以及標(biāo)準(zhǔn)化方面需要瀾舟科技發(fā)力的地方,而且已經(jīng)有許多場(chǎng)景接近于可以對(duì)公眾發(fā)布。
那么,瀾舟 AI 文圖生成技術(shù)主要有幾個(gè)特點(diǎn):
中文優(yōu)化更可控;
智能提示生成,眾所周知,Stable Diffusion 基于 prompt (提示),而普通用戶(hù)只會(huì)講自然語(yǔ)言,如何把它翻譯成更好的模型,可以理解的 prompt ,以及可能會(huì)適當(dāng)添加用戶(hù)并沒(méi)有輸入的內(nèi)容,這些都是瀾舟需要做工作之一;
概念構(gòu)建一致性,這里的概念可能是一個(gè)小說(shuō)里的人物、法器或者其他的物件等等,讓它們?cè)谝粋€(gè)小說(shuō)故事中保持一致性,也是一個(gè)挺大的挑戰(zhàn);
個(gè)性化定制訓(xùn)練,AI 不能隨機(jī)定制,比如小說(shuō)故事中的人物,AI 定制的人物形象從始至終必須保持一直;
推理加速提升體驗(yàn),包括降低成本,畢竟商業(yè)化付費(fèi)時(shí)對(duì)業(yè)務(wù)是有價(jià)值的。
目前,瀾舟科技也有一些初步的研究成果,比如可控的文圖生成的風(fēng)格控制,舉個(gè)例子,生成一種國(guó)畫(huà)風(fēng),也是用到 Stable Diffusion,但中間也會(huì)做一些訓(xùn)練進(jìn)行反哺,就是有一個(gè) Discriminator 判別器,中間有人員參與挑選生成的圖片,然后告知模型生成的圖片中有哪些是符合國(guó)畫(huà)風(fēng)的,哪些是不符合的,即把正確的結(jié)果再反哺給 Stable Diffusion ,如此訓(xùn)練出來(lái)的模型再去推理時(shí),效果就會(huì)接近想要的風(fēng)格。再比如,一張女孩子的圖片,還可以指定風(fēng)格生成二次元、國(guó)畫(huà)、賽博朋克等不同風(fēng)格的需求。




再拿形象控制來(lái)說(shuō),比如小說(shuō)故事中的人物必須長(zhǎng)成描述的樣子,給定目標(biāo)形象,但訓(xùn)練時(shí)也怕會(huì)出現(xiàn)擬合,需要把一些泛化的形象塞到模型中。為此,瀾舟采用的是 DreamBooth 的方法,即拿一個(gè)字符去代表某一種男孩的形象進(jìn)行訓(xùn)練,當(dāng)進(jìn)行推理時(shí),只要告訴模型要推理這個(gè)字符形象的男孩,就能得到想要的效果。比如,一個(gè)男生走進(jìn)便利店,他會(huì)出現(xiàn)在詢(xún)問(wèn)店員、拿商品以及結(jié)賬等場(chǎng)景中,當(dāng)然現(xiàn)在還會(huì)有一些瑕疵需要后續(xù)不斷完善。
最后,瀾舟科技未來(lái)能做的事情還有很多,也十分看重應(yīng)用場(chǎng)景的切實(shí)落地,過(guò)程中還有許多問(wèn)題亟待解決:一是長(zhǎng)文本生成的可控性,AI 寫(xiě)幾百字的文本還可以,但如果是上千字,可控性就沒(méi)有那么強(qiáng);二是篇章和上下文一致性,比如熊貓小說(shuō)中的故事接龍,涉及上千篇章或節(jié),以及將前面的摘要融合到上一篇或者上一節(jié)內(nèi)容,都是需要去探索的地方;三是常識(shí)與事實(shí)合理性,這方面可能就要引入知識(shí)圖譜,比如讓機(jī)器曉知天文地理,對(duì)時(shí)間地點(diǎn)、人物關(guān)系等合理性描述;四是,個(gè)性化敏捷定制,比如,用戶(hù)有一個(gè)固定的人物形象或是一個(gè)插畫(huà),究竟如何去做個(gè)性化定制都需要后續(xù)探索。
總而言之,在 AIGC 領(lǐng)域,人類(lèi)應(yīng)該持續(xù)提升創(chuàng)造力,不要停止,不要因?yàn)橛辛?AI 就不去創(chuàng)造了,而 AI 也將通過(guò)提升整個(gè)產(chǎn)業(yè)效率的方式來(lái)幫助人類(lèi)更好地創(chuàng)造價(jià)值。