ChatGPT/AIGC 八問八答
原創(chuàng) | 文BFT機(jī)器人

Q1:大規(guī)模預(yù)訓(xùn)練模型(大模型)與小模型的核心區(qū)別?相比小模型,大模型有什么優(yōu)勢(shì)?
首先最核心區(qū)別在于參數(shù)量,例如 GPT-3 參數(shù)量達(dá)到了 1,750 億個(gè),是傳統(tǒng)深度學(xué)習(xí)小模型參數(shù)量的至少一萬倍以上。通過模型的擴(kuò)大,可以帶來提升包括:
GPT-2 等大模型舍棄了小模型中常見的調(diào)參 Fine-Tuning 過程,轉(zhuǎn)向容量更大、無監(jiān)督訓(xùn)練。
在自然語言理解 NLP 中,常見任務(wù)包括翻譯、問答、文本填空等,常見小模型需要對(duì)不同的任務(wù)使用不同模型分別訓(xùn)練解決,而 GPT-3 等大規(guī)模預(yù)訓(xùn)練模型不再規(guī)定任務(wù),而是對(duì)以上不同任務(wù)都有較好效果;可以理解為,一個(gè)飽讀詩書的人,應(yīng)該會(huì)寫作、對(duì)話、閱讀理解等多種技能,而不需要對(duì)單獨(dú)技能訓(xùn)練;

傳統(tǒng)的模型訓(xùn)練方式是反向傳播算法,先對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行隨機(jī)初始化(預(yù)訓(xùn)練大模型中不是隨機(jī)初始化的),再利用隨機(jī)梯度下降等優(yōu)化算法不斷優(yōu)化模型參數(shù),這種方式下對(duì)數(shù)據(jù)需求量較大。GPT-3 先使用海量數(shù)據(jù)預(yù)訓(xùn)練大模型,得到一套模型參數(shù),然后用這套參數(shù)對(duì)模型進(jìn)行初始化,再進(jìn)行訓(xùn)練。大幅降低后續(xù)對(duì)數(shù)據(jù)量的需求。

Q2:因此大規(guī)模預(yù)訓(xùn)練思路對(duì) AI 應(yīng)用落地有什么幫助?
小模型時(shí)代,商用模型開發(fā)會(huì)綜合考慮調(diào)參等研發(fā)投入量和帶來的商業(yè)價(jià)值,模型開發(fā)出來后能否復(fù)用以攤薄研發(fā)成本,同時(shí)對(duì)于部分訓(xùn)練樣本量較少的場(chǎng)景,沒有很好解決方法。
大模型可以在長(zhǎng)尾場(chǎng)景應(yīng)用落地,降低訓(xùn)練成本、減少數(shù)據(jù)要求?;诖笠?guī)模預(yù)訓(xùn)練思路,一方面大模型可以應(yīng)對(duì)多個(gè)泛化任務(wù),大模型+細(xì)分場(chǎng)景微調(diào),更適合長(zhǎng)尾落地;另一方面,對(duì)于小樣本(few shot)訓(xùn)練,大模型也有較好提升。
Q3:GPT-3 等大模型和 Transformer 的關(guān)聯(lián)?
GPT/Bert 等大模型都在自然語言領(lǐng)域應(yīng)用。而 Transformer 是目前 NLP 領(lǐng)域效果較好的深度學(xué)習(xí)模型,因此 GPT/Bert 等都使用了 Transformer。
此前 NLP 模型問題是:例如 RNN、LSTM,基本做法是把一段話拆分成多個(gè)單元,然后按前后順序依次輸入,輸入的 LSTM 或 RNN 模塊可以根據(jù)訓(xùn)練中句子的長(zhǎng)度進(jìn)行調(diào)整,較短的句子可以通過占位符進(jìn)行補(bǔ)齊。也就是說當(dāng)輸入第 n 個(gè)詞的時(shí)候,機(jī)器僅有前 n-1個(gè)詞的信息。即實(shí)際訓(xùn)練無法充分發(fā)揮這些輸入之間的關(guān)系而導(dǎo)致模型訓(xùn)練結(jié)果效果極差。即使嘗試用 CNN 解決這個(gè)問題,但需要疊加很多層,才能捕捉長(zhǎng)遠(yuǎn)的信息。

Transformer 引入了 Self-Attention 自注意力機(jī)制:讓機(jī)器注意到整個(gè)輸入中不同部分之間的相關(guān)性。Transformer 最大的特點(diǎn)是,可以讓每個(gè)單元都可以捕捉到整句的信息,這也是 RNN/LSTM 等更早期 NLP 模型無法做到的一點(diǎn)。
Q4:那 Transformer 對(duì)于 CV 機(jī)器視覺可以有類似 NLP 的提升嗎?
實(shí)際上 2017 年 transformer 推出之后,2018 年就有學(xué)者將其應(yīng)用于 CV 圖像領(lǐng)域,但當(dāng)時(shí)應(yīng)用效果未發(fā)現(xiàn)相比傳統(tǒng) CNN 等算法有較大提升。當(dāng)時(shí)常見做法是將自注意力和CNN 一起使用,而原有結(jié)構(gòu)基本不變,對(duì)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)仍有較高依賴。
Transformers 用在 CV 上的難點(diǎn)。對(duì)于一個(gè) Transformer 的 encoder,輸入元素是一個(gè)個(gè)的單詞,輸出是一些元素。Transformers 自注意力操作中,每個(gè)元素需要和每個(gè)元素互相進(jìn)行兩兩互動(dòng),最后算得一個(gè) Attention 自注意力圖,通過加權(quán)平均,最后得到輸出。由于單元間兩兩互動(dòng),因此復(fù)雜度是序列長(zhǎng)度的平方,也就是 n^2,在自然語言處理中,一個(gè)句子的長(zhǎng)度一般就是幾百或上千,例如 BERT 為 512 序列長(zhǎng)度。
而對(duì)于一個(gè)比較常見的 224 x 224 大小的圖片,如果直接以每一個(gè)像素點(diǎn)為單位進(jìn)行兩兩互動(dòng)的話,那序列長(zhǎng)度為 50176,大概為 BERT 序列長(zhǎng)度的 100 倍,因此復(fù)雜度極高。
但在 2021 年后,隨著 swin transformer、mae 等論文推出,transformer 在 CV和跨模態(tài)等應(yīng)用增加。

例如 2021 年 google 將嘗試將自注意力機(jī)制和 transformer 直接應(yīng)用在圖像領(lǐng)域。在不依賴 CNN 結(jié)構(gòu)的情況下,如何盡可能地講 NLP 領(lǐng)域的標(biāo)配——Transformer 不做修改的遷移到 CV 領(lǐng)域,并取得了較好的效果。

例如 2022 年引入的 MAE 方法。masked autoencoders(MAE)方法是隨機(jī) mask(遮罩)掉一部分像素,能極大加速模型的訓(xùn)練速度并提升準(zhǔn)確率。由于語言的信息密度更高,mask 部分文字可能使得語義完全不同;而圖像的冗余度就很高,因此 mask 掉部分信息可以大大減少冗余。

因此,國內(nèi)擅長(zhǎng) CV 的 AI 公司,在 2022 年前對(duì)于基于 transformer 的大模型關(guān)注投入較少,但是我們認(rèn)為隨著 VIT 等效果提升,應(yīng)用類的 CV 公司也會(huì)開始關(guān)注并投入大模型。
Q5:為何 GPT-3 在 2020 年就推出了,而資本市場(chǎng)近期才開始對(duì)大模型高關(guān)注?
2020 年的 GPT-3 仍有較多缺陷,其中無法商用的最大問題是輸出結(jié)果有毒或不真實(shí),OpenAI 2022 年 1 月正式公開了改良版 InstructGPT。比 GPT-3 小了 100 多倍,僅有 13億個(gè)參數(shù)。OpenAI 使用了一種通過人類反饋來強(qiáng)化學(xué)習(xí) (RLHF) 的現(xiàn)有技術(shù)。OpenAI根據(jù)用戶和 API 的交互結(jié)果,對(duì)模型的多個(gè)輸出進(jìn)行了排名,然后再利用這些數(shù)據(jù)微調(diào)GPT-3,大幅減少了有毒結(jié)果的輸出。


因此,我們現(xiàn)在看到的 ChatGPT 可以優(yōu)化負(fù)面結(jié)果,比如提問“如何闖空門”,機(jī)器會(huì)回答“這并不合適”,同時(shí)連貫對(duì)話也更加流暢,達(dá)到了可以商用的效果。
同樣的情況在 AIGC 圖片生成領(lǐng)域也存在。2021 年 OPEN AI 就推出了圖片生成工具包 DALL-E,但是此時(shí)圖像像素仍然較低。2022 年后,OPEN AI 進(jìn)一步引入 Diffusion 等方式,使得圖片像素提升 4 倍以上,且同時(shí)模型真實(shí)度可以維持,并在此基礎(chǔ)上推出全新工具包 DALL-E2。此時(shí)較高像素下生成的圖片可以開始達(dá)到商用的效果。


Q6:為何也有人認(rèn)為 GPT 等大模型并未對(duì) NLP 做出顛覆式創(chuàng)新?
傳統(tǒng) NLP 最大缺陷,即自然語言理解、缺乏邏輯等問題,在 GPT中仍未被解決。GPT等模型依賴于大規(guī)模離線收集的語料進(jìn)行訓(xùn)練,但是對(duì)于在線提供的即時(shí)信息,往往并不能進(jìn)行充分理解并且納入自己的回復(fù)中。更進(jìn)一步的,對(duì)于對(duì)話中提供的因果關(guān)系,ChatGPT 也往往缺乏很好的理解能力。
例如提問:韓梅梅喜歡畫畫,她的兒子也是。李華是韓梅梅唯一的兒子。所以李華喜歡畫畫嗎?ChatGPT:不太清楚李華是否喜歡畫畫。
此外,GPT 會(huì)給出部分問題貌似合理但不正確或荒謬的答案,或者過度使用一些詞句和特定表達(dá),同時(shí)缺乏類似人類的舉一反三的能力等。
Q7:國內(nèi) transformer 大模型做的怎樣?如何看待中美技術(shù)差距。
首先,需要承認(rèn)這一類大模型底層創(chuàng)新在美國開始,包括 2017 年 Google《Attention?Is All You Need》首次提出了 NLP 模型 Transformer,OpenAI 的 GPT-3 等。中國在 2021年后加速追趕,尤其是在 CV 大模型和多模態(tài)融合。
據(jù)國內(nèi) OpenBMB 開源社區(qū)統(tǒng)計(jì),目前,在全球超千億參數(shù)的大模型中,中國企業(yè)或機(jī)構(gòu)貢獻(xiàn)了 1/3,美國貢獻(xiàn)了 1/2,世界其他國家或組織貢獻(xiàn)了剩下的 1/6。
此前國內(nèi)大部分視覺類AI公司都以小模型路線為主,投入大模型研發(fā)較多的包括百度、華為等,優(yōu)勢(shì)可能會(huì)在多模態(tài)融合。

百度文心大模型:NLP+CV,基本實(shí)現(xiàn)跨模態(tài)和多下游應(yīng)用。
應(yīng)用場(chǎng)景涵蓋:NLP 大模型、CV 大模型、跨模態(tài)大模型、生物計(jì)算大模型、行業(yè)大模型。API 包括了:1)ERNIE3.0 文本理解與創(chuàng)作:預(yù)置作文生成、文案創(chuàng)作、情感分析等任務(wù)提示,2)ERNIE-ViLG AI作畫大模型,3)PLATO 大模型開放域?qū)υ挿?wù)。

華為盤古大模型:最大中文語言預(yù)訓(xùn)練模型。
2021 年 4 月華為發(fā)布千億參數(shù) 40TB 訓(xùn)練數(shù)據(jù)的全球最大中文語言(NLP)預(yù)訓(xùn)練模型,30 億參數(shù)的全球最大視覺(CV)預(yù)訓(xùn)練模型。將 P-tuning、priming 等最新技術(shù)融入到盤古的微調(diào)框架中,提升微調(diào)效果;在樣本極少的情況下,盤古的少樣本學(xué)習(xí)能力遠(yuǎn)超 GPT 系列和 BERT 系列;要得到相同的 F1結(jié)果,盤古所需的數(shù)據(jù)量?jī)H為中文 GPT-3 的 1/9,實(shí)現(xiàn)了近 10 倍的生產(chǎn)效率提升。
Q8:怎樣的公司有機(jī)會(huì)參與大模型底層技術(shù)研發(fā)?
我們認(rèn)為大模型對(duì)存儲(chǔ)、算力要求極高,且對(duì)于開發(fā)者對(duì)深度學(xué)習(xí)框架使用也有要求,普通機(jī)構(gòu)難以復(fù)現(xiàn)。
據(jù) NVIDIA 估算,如果要訓(xùn)練 GPT-3 ,即使單個(gè)機(jī)器的顯存 / 內(nèi)存能裝得下,用 8張 V100 的顯卡,訓(xùn)練時(shí)長(zhǎng)預(yù)計(jì)要 36 年;即使用 512 張 V100 ,訓(xùn)練也需要將近 7 個(gè)月;如果擁有 1024 張 80GB A100, 那么完整訓(xùn)練 GPT-3 的時(shí)長(zhǎng)可以縮減到 1 個(gè)月。
以微軟與 OpenAI 合作建造 的 Azure A 工智能算力平臺(tái)為例,該算力平臺(tái)投資約 10億美元,使用該超算中心訓(xùn)練一次超大模型 GPT-3 大約花費(fèi) 1200 萬美元。
同時(shí)解決分布式訓(xùn)練問題:上百臺(tái)服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等問題,模型訓(xùn)練是顯存峰值問題。
因此 GPT-3 發(fā)布一年后,只有 NVIDIA 、微軟等大企業(yè)可以復(fù)現(xiàn) 。
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。