最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ChatGPT/AIGC 八問八答

2023-03-16 10:56 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng) | 文BFT機(jī)器人


Q1:大規(guī)模預(yù)訓(xùn)練模型(大模型)與小模型的核心區(qū)別?相比小模型,大模型有什么優(yōu)勢(shì)?


首先最核心區(qū)別在于參數(shù)量,例如 GPT-3 參數(shù)量達(dá)到了 1,750 億個(gè),是傳統(tǒng)深度學(xué)習(xí)小模型參數(shù)量的至少一萬倍以上。通過模型的擴(kuò)大,可以帶來提升包括:


  • GPT-2 等大模型舍棄了小模型中常見的調(diào)參 Fine-Tuning 過程,轉(zhuǎn)向容量更大、無監(jiān)督訓(xùn)練。


  • 在自然語言理解 NLP 中,常見任務(wù)包括翻譯、問答、文本填空等,常見小模型需要對(duì)不同的任務(wù)使用不同模型分別訓(xùn)練解決,而 GPT-3 等大規(guī)模預(yù)訓(xùn)練模型不再規(guī)定任務(wù),而是對(duì)以上不同任務(wù)都有較好效果;可以理解為,一個(gè)飽讀詩書的人,應(yīng)該會(huì)寫作、對(duì)話、閱讀理解等多種技能,而不需要對(duì)單獨(dú)技能訓(xùn)練;


圖1 預(yù)訓(xùn)練大模型在綜合大量信息后可以用于多范圍任務(wù)


  • 傳統(tǒng)的模型訓(xùn)練方式是反向傳播算法,先對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行隨機(jī)初始化(預(yù)訓(xùn)練大模型中不是隨機(jī)初始化的),再利用隨機(jī)梯度下降等優(yōu)化算法不斷優(yōu)化模型參數(shù),這種方式下對(duì)數(shù)據(jù)需求量較大。GPT-3 先使用海量數(shù)據(jù)預(yù)訓(xùn)練大模型,得到一套模型參數(shù),然后用這套參數(shù)對(duì)模型進(jìn)行初始化,再進(jìn)行訓(xùn)練。大幅降低后續(xù)對(duì)數(shù)據(jù)量的需求。


圖 2 參數(shù)量較大的模型在即使在 Few-shot 下也有很好的表現(xiàn)


Q2:因此大規(guī)模預(yù)訓(xùn)練思路對(duì) AI 應(yīng)用落地有什么幫助?


小模型時(shí)代,商用模型開發(fā)會(huì)綜合考慮調(diào)參等研發(fā)投入量和帶來的商業(yè)價(jià)值,模型開發(fā)出來后能否復(fù)用以攤薄研發(fā)成本,同時(shí)對(duì)于部分訓(xùn)練樣本量較少的場(chǎng)景,沒有很好解決方法。


大模型可以在長(zhǎng)尾場(chǎng)景應(yīng)用落地,降低訓(xùn)練成本、減少數(shù)據(jù)要求?;诖笠?guī)模預(yù)訓(xùn)練思路,一方面大模型可以應(yīng)對(duì)多個(gè)泛化任務(wù),大模型+細(xì)分場(chǎng)景微調(diào),更適合長(zhǎng)尾落地;另一方面,對(duì)于小樣本(few shot)訓(xùn)練,大模型也有較好提升。


Q3:GPT-3 等大模型和 Transformer 的關(guān)聯(lián)?


GPT/Bert 等大模型都在自然語言領(lǐng)域應(yīng)用。而 Transformer 是目前 NLP 領(lǐng)域效果較好的深度學(xué)習(xí)模型,因此 GPT/Bert 等都使用了 Transformer。


此前 NLP 模型問題是:例如 RNN、LSTM,基本做法是把一段話拆分成多個(gè)單元,然后按前后順序依次輸入,輸入的 LSTM 或 RNN 模塊可以根據(jù)訓(xùn)練中句子的長(zhǎng)度進(jìn)行調(diào)整,較短的句子可以通過占位符進(jìn)行補(bǔ)齊。也就是說當(dāng)輸入第 n 個(gè)詞的時(shí)候,機(jī)器僅有前 n-1個(gè)詞的信息。即實(shí)際訓(xùn)練無法充分發(fā)揮這些輸入之間的關(guān)系而導(dǎo)致模型訓(xùn)練結(jié)果效果極差。即使嘗試用 CNN 解決這個(gè)問題,但需要疊加很多層,才能捕捉長(zhǎng)遠(yuǎn)的信息。


圖 3 Transformer 的詳細(xì)結(jié)構(gòu)


Transformer 引入了 Self-Attention 自注意力機(jī)制:讓機(jī)器注意到整個(gè)輸入中不同部分之間的相關(guān)性。Transformer 最大的特點(diǎn)是,可以讓每個(gè)單元都可以捕捉到整句的信息,這也是 RNN/LSTM 等更早期 NLP 模型無法做到的一點(diǎn)。


Q4:那 Transformer 對(duì)于 CV 機(jī)器視覺可以有類似 NLP 的提升嗎?


實(shí)際上 2017 年 transformer 推出之后,2018 年就有學(xué)者將其應(yīng)用于 CV 圖像領(lǐng)域,但當(dāng)時(shí)應(yīng)用效果未發(fā)現(xiàn)相比傳統(tǒng) CNN 等算法有較大提升。當(dāng)時(shí)常見做法是將自注意力和CNN 一起使用,而原有結(jié)構(gòu)基本不變,對(duì)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)仍有較高依賴。


Transformers 用在 CV 上的難點(diǎn)。對(duì)于一個(gè) Transformer 的 encoder,輸入元素是一個(gè)個(gè)的單詞,輸出是一些元素。Transformers 自注意力操作中,每個(gè)元素需要和每個(gè)元素互相進(jìn)行兩兩互動(dòng),最后算得一個(gè) Attention 自注意力圖,通過加權(quán)平均,最后得到輸出。由于單元間兩兩互動(dòng),因此復(fù)雜度是序列長(zhǎng)度的平方,也就是 n^2,在自然語言處理中,一個(gè)句子的長(zhǎng)度一般就是幾百或上千,例如 BERT 為 512 序列長(zhǎng)度。


而對(duì)于一個(gè)比較常見的 224 x 224 大小的圖片,如果直接以每一個(gè)像素點(diǎn)為單位進(jìn)行兩兩互動(dòng)的話,那序列長(zhǎng)度為 50176,大概為 BERT 序列長(zhǎng)度的 100 倍,因此復(fù)雜度極高。


但在 2021 年后,隨著 swin transformer、mae 等論文推出,transformer 在 CV和跨模態(tài)等應(yīng)用增加。


圖 4 圖像分類任務(wù)中使用 Vision Transformer 取得了較好的結(jié)果


例如 2021 年 google 將嘗試將自注意力機(jī)制和 transformer 直接應(yīng)用在圖像領(lǐng)域。在不依賴 CNN 結(jié)構(gòu)的情況下,如何盡可能地講 NLP 領(lǐng)域的標(biāo)配——Transformer 不做修改的遷移到 CV 領(lǐng)域,并取得了較好的效果。


圖 5 2021 年 google 的 Vision Transformer 論文的核心思路


例如 2022 年引入的 MAE 方法。masked autoencoders(MAE)方法是隨機(jī) mask(遮罩)掉一部分像素,能極大加速模型的訓(xùn)練速度并提升準(zhǔn)確率。由于語言的信息密度更高,mask 部分文字可能使得語義完全不同;而圖像的冗余度就很高,因此 mask 掉部分信息可以大大減少冗余。


圖 6 MAE 的核心思路


因此,國內(nèi)擅長(zhǎng) CV 的 AI 公司,在 2022 年前對(duì)于基于 transformer 的大模型關(guān)注投入較少,但是我們認(rèn)為隨著 VIT 等效果提升,應(yīng)用類的 CV 公司也會(huì)開始關(guān)注并投入大模型。


Q5:為何 GPT-3 在 2020 年就推出了,而資本市場(chǎng)近期才開始對(duì)大模型高關(guān)注?


2020 年的 GPT-3 仍有較多缺陷,其中無法商用的最大問題是輸出結(jié)果有毒或不真實(shí),OpenAI 2022 年 1 月正式公開了改良版 InstructGPT。比 GPT-3 小了 100 多倍,僅有 13億個(gè)參數(shù)。OpenAI 使用了一種通過人類反饋來強(qiáng)化學(xué)習(xí) (RLHF) 的現(xiàn)有技術(shù)。OpenAI根據(jù)用戶和 API 的交互結(jié)果,對(duì)模型的多個(gè)輸出進(jìn)行了排名,然后再利用這些數(shù)據(jù)微調(diào)GPT-3,大幅減少了有毒結(jié)果的輸出。




圖 8 GPT-3 最 被 詬 病 的 毒 的 結(jié) 果(RealToxicityPrompts)在 InstructGPT 中減少


因此,我們現(xiàn)在看到的 ChatGPT 可以優(yōu)化負(fù)面結(jié)果,比如提問“如何闖空門”,機(jī)器會(huì)回答“這并不合適”,同時(shí)連貫對(duì)話也更加流暢,達(dá)到了可以商用的效果。


同樣的情況在 AIGC 圖片生成領(lǐng)域也存在。2021 年 OPEN AI 就推出了圖片生成工具包 DALL-E,但是此時(shí)圖像像素仍然較低。2022 年后,OPEN AI 進(jìn)一步引入 Diffusion 等方式,使得圖片像素提升 4 倍以上,且同時(shí)模型真實(shí)度可以維持,并在此基礎(chǔ)上推出全新工具包 DALL-E2。此時(shí)較高像素下生成的圖片可以開始達(dá)到商用的效果。


圖 9 DALL·E 設(shè)計(jì)“一顆白菜穿著芭蕾舞裙在遛狗”
圖 10 DALL·E -2 設(shè)計(jì)“一碗湯是另一個(gè)次元的入口


Q6:為何也有人認(rèn)為 GPT 等大模型并未對(duì) NLP 做出顛覆式創(chuàng)新?


傳統(tǒng) NLP 最大缺陷,即自然語言理解、缺乏邏輯等問題,在 GPT中仍未被解決。GPT等模型依賴于大規(guī)模離線收集的語料進(jìn)行訓(xùn)練,但是對(duì)于在線提供的即時(shí)信息,往往并不能進(jìn)行充分理解并且納入自己的回復(fù)中。更進(jìn)一步的,對(duì)于對(duì)話中提供的因果關(guān)系,ChatGPT 也往往缺乏很好的理解能力。


例如提問:韓梅梅喜歡畫畫,她的兒子也是。李華是韓梅梅唯一的兒子。所以李華喜歡畫畫嗎?ChatGPT:不太清楚李華是否喜歡畫畫。


此外,GPT 會(huì)給出部分問題貌似合理但不正確或荒謬的答案,或者過度使用一些詞句和特定表達(dá),同時(shí)缺乏類似人類的舉一反三的能力等。


Q7:國內(nèi) transformer 大模型做的怎樣?如何看待中美技術(shù)差距。


首先,需要承認(rèn)這一類大模型底層創(chuàng)新在美國開始,包括 2017 年 Google《Attention?Is All You Need》首次提出了 NLP 模型 Transformer,OpenAI 的 GPT-3 等。中國在 2021年后加速追趕,尤其是在 CV 大模型和多模態(tài)融合。


據(jù)國內(nèi) OpenBMB 開源社區(qū)統(tǒng)計(jì),目前,在全球超千億參數(shù)的大模型中,中國企業(yè)或機(jī)構(gòu)貢獻(xiàn)了 1/3,美國貢獻(xiàn)了 1/2,世界其他國家或組織貢獻(xiàn)了剩下的 1/6。


此前國內(nèi)大部分視覺類AI公司都以小模型路線為主,投入大模型研發(fā)較多的包括百度、華為等,優(yōu)勢(shì)可能會(huì)在多模態(tài)融合。


圖 11 大模型/小模型兩類公司路線區(qū)別


百度文心大模型:NLP+CV,基本實(shí)現(xiàn)跨模態(tài)和多下游應(yīng)用。


應(yīng)用場(chǎng)景涵蓋:NLP 大模型、CV 大模型、跨模態(tài)大模型、生物計(jì)算大模型、行業(yè)大模型。API 包括了:1)ERNIE3.0 文本理解與創(chuàng)作:預(yù)置作文生成、文案創(chuàng)作、情感分析等任務(wù)提示,2)ERNIE-ViLG AI作畫大模型,3)PLATO 大模型開放域?qū)υ挿?wù)。


圖 12 百度文心大模型和多行業(yè)工具平臺(tái)


華為盤古大模型:最大中文語言預(yù)訓(xùn)練模型。


2021 年 4 月華為發(fā)布千億參數(shù) 40TB 訓(xùn)練數(shù)據(jù)的全球最大中文語言(NLP)預(yù)訓(xùn)練模型,30 億參數(shù)的全球最大視覺(CV)預(yù)訓(xùn)練模型。將 P-tuning、priming 等最新技術(shù)融入到盤古的微調(diào)框架中,提升微調(diào)效果;在樣本極少的情況下,盤古的少樣本學(xué)習(xí)能力遠(yuǎn)超 GPT 系列和 BERT 系列;要得到相同的 F1結(jié)果,盤古所需的數(shù)據(jù)量?jī)H為中文 GPT-3 的 1/9,實(shí)現(xiàn)了近 10 倍的生產(chǎn)效率提升。


Q8:怎樣的公司有機(jī)會(huì)參與大模型底層技術(shù)研發(fā)?


我們認(rèn)為大模型對(duì)存儲(chǔ)、算力要求極高,且對(duì)于開發(fā)者對(duì)深度學(xué)習(xí)框架使用也有要求,普通機(jī)構(gòu)難以復(fù)現(xiàn)。


據(jù) NVIDIA 估算,如果要訓(xùn)練 GPT-3 ,即使單個(gè)機(jī)器的顯存 / 內(nèi)存能裝得下,用 8張 V100 的顯卡,訓(xùn)練時(shí)長(zhǎng)預(yù)計(jì)要 36 年;即使用 512 張 V100 ,訓(xùn)練也需要將近 7 個(gè)月;如果擁有 1024 張 80GB A100, 那么完整訓(xùn)練 GPT-3 的時(shí)長(zhǎng)可以縮減到 1 個(gè)月。


以微軟與 OpenAI 合作建造 的 Azure A 工智能算力平臺(tái)為例,該算力平臺(tái)投資約 10億美元,使用該超算中心訓(xùn)練一次超大模型 GPT-3 大約花費(fèi) 1200 萬美元。


同時(shí)解決分布式訓(xùn)練問題:上百臺(tái)服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等問題,模型訓(xùn)練是顯存峰值問題。


因此 GPT-3 發(fā)布一年后,只有 NVIDIA 、微軟等大企業(yè)可以復(fù)現(xiàn) 。




更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人



本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問,請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。


ChatGPT/AIGC 八問八答的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
平阴县| 永宁县| 普安县| 广东省| 体育| 宿迁市| 昭苏县| 改则县| 靖远县| 中卫市| 那曲县| 营山县| 洪湖市| 高密市| 会泽县| 桂林市| 新建县| 兴国县| 天门市| 南京市| 伊川县| 定兴县| 景洪市| 都昌县| 砀山县| 铁岭县| 延长县| 浙江省| 镶黄旗| 汉源县| 辽宁省| 泸州市| 佛学| 临颍县| 大厂| 汶川县| 禄劝| 邳州市| 察哈| 锡林郭勒盟| 浦北县|