散文網(wǎng) » 科技 »學(xué)習(xí) » ChatGPT/AIGC 八問八答

ChatGPT/AIGC 八問八答

2023-03-16 10:56 作者:BFT白芙堂機(jī)器人 0人讀過 | 我要投稿

原創(chuàng) | 文BFT機(jī)器人

Q1：大規(guī)模預(yù)訓(xùn)練模型（大模型）與小模型的核心區(qū)別？相比小模型，大模型有什么優(yōu)勢(shì)？

首先最核心區(qū)別在于參數(shù)量，例如 GPT-3 參數(shù)量達(dá)到了 1,750 億個(gè)，是傳統(tǒng)深度學(xué)習(xí)小模型參數(shù)量的至少一萬倍以上。通過模型的擴(kuò)大，可以帶來提升包括：

GPT-2 等大模型舍棄了小模型中常見的調(diào)參 Fine-Tuning 過程，轉(zhuǎn)向容量更大、無監(jiān)督訓(xùn)練。
在自然語言理解 NLP 中，常見任務(wù)包括翻譯、問答、文本填空等，常見小模型需要對(duì)不同的任務(wù)使用不同模型分別訓(xùn)練解決，而 GPT-3 等大規(guī)模預(yù)訓(xùn)練模型不再規(guī)定任務(wù)，而是對(duì)以上不同任務(wù)都有較好效果；可以理解為，一個(gè)飽讀詩書的人，應(yīng)該會(huì)寫作、對(duì)話、閱讀理解等多種技能，而不需要對(duì)單獨(dú)技能訓(xùn)練；

傳統(tǒng)的模型訓(xùn)練方式是反向傳播算法，先對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行隨機(jī)初始化（預(yù)訓(xùn)練大模型中不是隨機(jī)初始化的），再利用隨機(jī)梯度下降等優(yōu)化算法不斷優(yōu)化模型參數(shù)，這種方式下對(duì)數(shù)據(jù)需求量較大。GPT-3 先使用海量數(shù)據(jù)預(yù)訓(xùn)練大模型，得到一套模型參數(shù)，然后用這套參數(shù)對(duì)模型進(jìn)行初始化，再進(jìn)行訓(xùn)練。大幅降低后續(xù)對(duì)數(shù)據(jù)量的需求。

圖 2 參數(shù)量較大的模型在即使在 Few-shot 下也有很好的表現(xiàn)

Q2：因此大規(guī)模預(yù)訓(xùn)練思路對(duì) AI 應(yīng)用落地有什么幫助？

小模型時(shí)代，商用模型開發(fā)會(huì)綜合考慮調(diào)參等研發(fā)投入量和帶來的商業(yè)價(jià)值，模型開發(fā)出來后能否復(fù)用以攤薄研發(fā)成本，同時(shí)對(duì)于部分訓(xùn)練樣本量較少的場(chǎng)景，沒有很好解決方法。

大模型可以在長(zhǎng)尾場(chǎng)景應(yīng)用落地，降低訓(xùn)練成本、減少數(shù)據(jù)要求?；诖笠?guī)模預(yù)訓(xùn)練思路，一方面大模型可以應(yīng)對(duì)多個(gè)泛化任務(wù)，大模型+細(xì)分場(chǎng)景微調(diào)，更適合長(zhǎng)尾落地；另一方面，對(duì)于小樣本（few shot）訓(xùn)練，大模型也有較好提升。

Q3：GPT-3 等大模型和 Transformer 的關(guān)聯(lián)？

GPT/Bert 等大模型都在自然語言領(lǐng)域應(yīng)用。而 Transformer 是目前 NLP 領(lǐng)域效果較好的深度學(xué)習(xí)模型，因此 GPT/Bert 等都使用了 Transformer。

此前 NLP 模型問題是：例如 RNN、LSTM，基本做法是把一段話拆分成多個(gè)單元，然后按前后順序依次輸入，輸入的 LSTM 或 RNN 模塊可以根據(jù)訓(xùn)練中句子的長(zhǎng)度進(jìn)行調(diào)整，較短的句子可以通過占位符進(jìn)行補(bǔ)齊。也就是說當(dāng)輸入第 n 個(gè)詞的時(shí)候，機(jī)器僅有前 n-1個(gè)詞的信息。即實(shí)際訓(xùn)練無法充分發(fā)揮這些輸入之間的關(guān)系而導(dǎo)致模型訓(xùn)練結(jié)果效果極差。即使嘗試用 CNN 解決這個(gè)問題，但需要疊加很多層，才能捕捉長(zhǎng)遠(yuǎn)的信息。

Transformer 引入了 Self-Attention 自注意力機(jī)制：讓機(jī)器注意到整個(gè)輸入中不同部分之間的相關(guān)性。Transformer 最大的特點(diǎn)是，可以讓每個(gè)單元都可以捕捉到整句的信息，這也是 RNN/LSTM 等更早期 NLP 模型無法做到的一點(diǎn)。

Q4：那 Transformer 對(duì)于 CV 機(jī)器視覺可以有類似 NLP 的提升嗎？

實(shí)際上 2017 年 transformer 推出之后，2018 年就有學(xué)者將其應(yīng)用于 CV 圖像領(lǐng)域，但當(dāng)時(shí)應(yīng)用效果未發(fā)現(xiàn)相比傳統(tǒng) CNN 等算法有較大提升。當(dāng)時(shí)常見做法是將自注意力和CNN 一起使用，而原有結(jié)構(gòu)基本不變，對(duì)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)仍有較高依賴。

Transformers 用在 CV 上的難點(diǎn)。對(duì)于一個(gè) Transformer 的 encoder，輸入元素是一個(gè)個(gè)的單詞，輸出是一些元素。Transformers 自注意力操作中，每個(gè)元素需要和每個(gè)元素互相進(jìn)行兩兩互動(dòng)，最后算得一個(gè) Attention 自注意力圖，通過加權(quán)平均，最后得到輸出。由于單元間兩兩互動(dòng)，因此復(fù)雜度是序列長(zhǎng)度的平方，也就是 n^2，在自然語言處理中，一個(gè)句子的長(zhǎng)度一般就是幾百或上千，例如 BERT 為 512 序列長(zhǎng)度。

而對(duì)于一個(gè)比較常見的 224 x 224 大小的圖片，如果直接以每一個(gè)像素點(diǎn)為單位進(jìn)行兩兩互動(dòng)的話，那序列長(zhǎng)度為 50176，大概為 BERT 序列長(zhǎng)度的 100 倍，因此復(fù)雜度極高。

但在 2021 年后，隨著 swin transformer、mae 等論文推出，transformer 在 CV和跨模態(tài)等應(yīng)用增加。

圖 4 圖像分類任務(wù)中使用 Vision Transformer 取得了較好的結(jié)果

例如 2021 年 google 將嘗試將自注意力機(jī)制和 transformer 直接應(yīng)用在圖像領(lǐng)域。在不依賴 CNN 結(jié)構(gòu)的情況下，如何盡可能地講 NLP 領(lǐng)域的標(biāo)配——Transformer 不做修改的遷移到 CV 領(lǐng)域，并取得了較好的效果。

圖 5 2021 年 google 的 Vision Transformer 論文的核心思路

例如 2022 年引入的 MAE 方法。masked autoencoders(MAE)方法是隨機(jī) mask（遮罩）掉一部分像素，能極大加速模型的訓(xùn)練速度并提升準(zhǔn)確率。由于語言的信息密度更高，mask 部分文字可能使得語義完全不同；而圖像的冗余度就很高，因此 mask 掉部分信息可以大大減少冗余。

因此，國內(nèi)擅長(zhǎng) CV 的 AI 公司，在 2022 年前對(duì)于基于 transformer 的大模型關(guān)注投入較少，但是我們認(rèn)為隨著 VIT 等效果提升，應(yīng)用類的 CV 公司也會(huì)開始關(guān)注并投入大模型。

Q5：為何 GPT-3 在 2020 年就推出了，而資本市場(chǎng)近期才開始對(duì)大模型高關(guān)注？

2020 年的 GPT-3 仍有較多缺陷，其中無法商用的最大問題是輸出結(jié)果有毒或不真實(shí)，OpenAI 2022 年 1 月正式公開了改良版 InstructGPT。比 GPT-3 小了 100 多倍，僅有 13億個(gè)參數(shù)。OpenAI 使用了一種通過人類反饋來強(qiáng)化學(xué)習(xí) (RLHF) 的現(xiàn)有技術(shù)。OpenAI根據(jù)用戶和 API 的交互結(jié)果，對(duì)模型的多個(gè)輸出進(jìn)行了排名，然后再利用這些數(shù)據(jù)微調(diào)GPT-3，大幅減少了有毒結(jié)果的輸出。

圖 8 GPT-3 最被詬病的毒的結(jié) 果（RealToxicityPrompts）在 InstructGPT 中減少

因此，我們現(xiàn)在看到的 ChatGPT 可以優(yōu)化負(fù)面結(jié)果，比如提問“如何闖空門”，機(jī)器會(huì)回答“這并不合適”，同時(shí)連貫對(duì)話也更加流暢，達(dá)到了可以商用的效果。

同樣的情況在 AIGC 圖片生成領(lǐng)域也存在。2021 年 OPEN AI 就推出了圖片生成工具包 DALL-E，但是此時(shí)圖像像素仍然較低。2022 年后，OPEN AI 進(jìn)一步引入 Diffusion 等方式，使得圖片像素提升 4 倍以上，且同時(shí)模型真實(shí)度可以維持，并在此基礎(chǔ)上推出全新工具包 DALL-E2。此時(shí)較高像素下生成的圖片可以開始達(dá)到商用的效果。

圖 10 DALL·E -2 設(shè)計(jì)“一碗湯是另一個(gè)次元的入口

Q6：為何也有人認(rèn)為 GPT 等大模型并未對(duì) NLP 做出顛覆式創(chuàng)新？

傳統(tǒng) NLP 最大缺陷，即自然語言理解、缺乏邏輯等問題，在 GPT中仍未被解決。GPT等模型依賴于大規(guī)模離線收集的語料進(jìn)行訓(xùn)練，但是對(duì)于在線提供的即時(shí)信息，往往并不能進(jìn)行充分理解并且納入自己的回復(fù)中。更進(jìn)一步的，對(duì)于對(duì)話中提供的因果關(guān)系，ChatGPT 也往往缺乏很好的理解能力。

例如提問：韓梅梅喜歡畫畫，她的兒子也是。李華是韓梅梅唯一的兒子。所以李華喜歡畫畫嗎？ChatGPT：不太清楚李華是否喜歡畫畫。

此外，GPT 會(huì)給出部分問題貌似合理但不正確或荒謬的答案，或者過度使用一些詞句和特定表達(dá)，同時(shí)缺乏類似人類的舉一反三的能力等。

Q7：國內(nèi) transformer 大模型做的怎樣？如何看待中美技術(shù)差距。

首先，需要承認(rèn)這一類大模型底層創(chuàng)新在美國開始，包括 2017 年 Google《Attention?Is All You Need》首次提出了 NLP 模型 Transformer，OpenAI 的 GPT-3 等。中國在 2021年后加速追趕，尤其是在 CV 大模型和多模態(tài)融合。

據(jù)國內(nèi) OpenBMB 開源社區(qū)統(tǒng)計(jì)，目前，在全球超千億參數(shù)的大模型中，中國企業(yè)或機(jī)構(gòu)貢獻(xiàn)了 1/3，美國貢獻(xiàn)了 1/2，世界其他國家或組織貢獻(xiàn)了剩下的 1/6。

此前國內(nèi)大部分視覺類AI公司都以小模型路線為主，投入大模型研發(fā)較多的包括百度、華為等，優(yōu)勢(shì)可能會(huì)在多模態(tài)融合。

百度文心大模型：NLP+CV，基本實(shí)現(xiàn)跨模態(tài)和多下游應(yīng)用。

應(yīng)用場(chǎng)景涵蓋：NLP 大模型、CV 大模型、跨模態(tài)大模型、生物計(jì)算大模型、行業(yè)大模型。API 包括了：1）ERNIE3.0 文本理解與創(chuàng)作：預(yù)置作文生成、文案創(chuàng)作、情感分析等任務(wù)提示，2）ERNIE-ViLG AI作畫大模型，3）PLATO 大模型開放域?qū)υ挿?wù)。

華為盤古大模型：最大中文語言預(yù)訓(xùn)練模型。

2021 年 4 月華為發(fā)布千億參數(shù) 40TB 訓(xùn)練數(shù)據(jù)的全球最大中文語言（NLP）預(yù)訓(xùn)練模型，30 億參數(shù)的全球最大視覺（CV）預(yù)訓(xùn)練模型。將 P-tuning、priming 等最新技術(shù)融入到盤古的微調(diào)框架中，提升微調(diào)效果；在樣本極少的情況下，盤古的少樣本學(xué)習(xí)能力遠(yuǎn)超 GPT 系列和 BERT 系列；要得到相同的 F1結(jié)果，盤古所需的數(shù)據(jù)量?jī)H為中文 GPT-3 的 1/9，實(shí)現(xiàn)了近 10 倍的生產(chǎn)效率提升。

Q8：怎樣的公司有機(jī)會(huì)參與大模型底層技術(shù)研發(fā)？

我們認(rèn)為大模型對(duì)存儲(chǔ)、算力要求極高，且對(duì)于開發(fā)者對(duì)深度學(xué)習(xí)框架使用也有要求，普通機(jī)構(gòu)難以復(fù)現(xiàn)。

據(jù) NVIDIA 估算，如果要訓(xùn)練 GPT-3 ，即使單個(gè)機(jī)器的顯存 / 內(nèi)存能裝得下，用 8張 V100 的顯卡，訓(xùn)練時(shí)長(zhǎng)預(yù)計(jì)要 36 年；即使用 512 張 V100 ，訓(xùn)練也需要將近 7 個(gè)月；如果擁有 1024 張 80GB A100，那么完整訓(xùn)練 GPT-3 的時(shí)長(zhǎng)可以縮減到 1 個(gè)月。

以微軟與 OpenAI 合作建造的 Azure A 工智能算力平臺(tái)為例，該算力平臺(tái)投資約 10億美元，使用該超算中心訓(xùn)練一次超大模型 GPT-3 大約花費(fèi) 1200 萬美元。

同時(shí)解決分布式訓(xùn)練問題：上百臺(tái)服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等問題，模型訓(xùn)練是顯存峰值問題。

因此 GPT-3 發(fā)布一年后，只有 NVIDIA 、微軟等大企業(yè)可以復(fù)現(xiàn) 。

更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào)：BFT機(jī)器人

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問，請(qǐng)與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：