GPT-4學習筆記|大力出奇跡的LLM模型
周末一大早,睡眼惺忪的時候,就被學妹拉到了她的中科院校友會興趣群里。博士、科學家們創(chuàng)建了個GPT興趣群,學妹知道我現(xiàn)在正在夜以繼日的試圖跟上AI的進化,順手拉了我一把。
? ? ? ? ?
短短幾分鐘之內(nèi),這個群就滿員了。
? ? ? ? ?
學妹說,這個群的建立速度,充分反映了人類的好奇心和恐懼。
? ? ? ? ?
我說我感興趣的的是這個群很可能會孵化出很多項目甚至初創(chuàng)公司。
? ? ? ? ?
? ? ? ? ?
? ? ? ? ?
要知道,GPT-4之父OpenAI公司,恰好也是一家科學家組成的公司。
? ? ? ? ?
1、OpenAI的前生今世
? ? ? ? ?
很長一段時間,AI技術牢牢把持在谷歌、DeepMind(被谷歌收購)等巨頭手里,尤其是DeepMind的阿爾法狗家喻戶曉。
? ? ? ? ?
2015年12月,特斯拉汽車創(chuàng)始人埃隆·馬斯克,格雷格·布羅克曼(OpenAI聯(lián)合創(chuàng)始人兼總裁)、山姆·阿爾特曼(OpenAI首席執(zhí)行官)、彼得泰爾(Paypal創(chuàng)始人)以及伊利亞·蘇特斯科夫(師從神經(jīng)網(wǎng)絡之父杰弗里·辛頓,OpenAI首席科學家)等數(shù)位硅谷大佬拿出了10億美元,在舊金山創(chuàng)立了OpenAI。
? ? ? ? ?
不久前,馬斯克發(fā)推抱怨:我仍然很困惑,為什么一個我捐贈了1億美元的非營利性機構,竟然變成了一個市值300億美元的營利性機構?
? ? ? ? ?
? ? ? ? ?
我們先不談OpenAI的“變質(zhì)”,如果不是微軟不計成本的給它輸血(資金、Azure云資源),我們恐怕看不到AI快速發(fā)展的今天。
? ? ? ? ?
2、什么是GPT
? ? ? ? ?
2017年,Google團隊首次提出基于自注意力機制的Transformer模型,并將其應用于自然語言處理。
? ? ? ? ?
OpenAI應用了這項技術,2018年發(fā)布了最早的一代大型模型GPT-1(GPT是Generative Pre-trained Transformer的簡稱,中文翻譯為生成型預訓練變換模型)。
? ? ? ? ?
該模型用于問答、文本摘要生成、機器翻譯、分類、代碼生成和對話 AI。
? ? ? ? ?
GPT-1誕生于2018年,主要實現(xiàn)功能包括:自然語言推理,判斷兩個句子的關系(包含、矛盾、中立);問答與常識推理,輸入文章及若干答案,輸出答案的準確率;語義相似度識別,判斷兩個句子語義是否相關;分類,判斷輸入文本是指定的哪個類別。
? ? ? ? ?
GPT-1使用了幾十億文本檔案的語言資料庫進行訓練,模型的參數(shù)量為1.17億個。
? ? ? ? ?
2019年,GPT-2發(fā)布,模型參數(shù)量提高到15億個。GPT-2和GPT-1在技術路線上沒有本質(zhì)的不同,只是增加了數(shù)據(jù)量。
? ? ? ? ?
2020年,GPT-3發(fā)布,參數(shù)量達到了創(chuàng)紀錄的1750億個,其訓練參數(shù)是GPT-2的10倍以上,技術路線上則去掉了初代GPT的微調(diào)步驟,直接輸入自然語言當作指示,給GPT訓練讀過文字和句子后可接續(xù)問題的能力,同時包含了更為廣泛的主題。
? ? ? ? ?
OpenAI在GPT-3的預訓練過程中喂入了超過570GB的文本資料。當GPT-3獲得足夠豐富的知識庫時,其生成的結果也變得越來越精確。
? ? ? ? ?
2022年發(fā)布的ChatGPT,是在GPT-3基礎上的GPT3.5版本。
? ? ? ? ?
如果說ChatGPT帶來一抹驚艷的話,GPT-4就是對“傳統(tǒng)”AI摧枯拉朽的打擊。
? ? ? ? ?
從參數(shù)量來說,GPT-4高達100萬億個(據(jù)報道未證實,也有人推算沒有那么大)。
? ? ? ? ?
GPT-4的一個關鍵升級就是多模態(tài),也就是支持圖像和文本輸入,擁有強大的識圖能力。甚至能看懂梗圖,并能找到梗所在的點。
? ? ? ? ?
GPT的發(fā)展過程中,1、2都沒有帶來太多的影響力,被認為是各種AI路線中的一支。但隨著GPT-3尤其是GPT-4的出現(xiàn),人們驚訝的發(fā)現(xiàn),原來這就是AI的未來。
? ? ? ? ?
即便是大量資源押注AI的谷歌,也沒有料到GPT的成功。中國的AI企業(yè)也在相關領域進行研發(fā)。
? ? ? ? ?
樂觀估計,中國相關企業(yè)在技術上落后的時間大概是2-3年,并沒有非常大的代差。
? ? ? ? ?
3、關于LLM模型
? ? ? ? ?
人類和機器的交互,是從匯編語言開始的。這是經(jīng)過訓練的人類和機器都能讀懂的語言,但由于門檻過高,開始衍生出各種編程語言。
? ? ? ? ?
從上古的C語言到現(xiàn)在流行的Python,編程語言越來越簡單,但距離機器直接理解人類的語言,依然有一定的距離。
? ? ? ? ?
我們必須需要工程師來做這個“翻譯”。
? ? ? ? ?
NLP(Natural Language Processing自然語言處理)研究的目標,就是讓機器能夠直接理解并能輸出人類語言。
? ? ? ? ?
其中,GPT依賴的LLM(Large Language Model,大型語言模型)成為目前最佳的選擇方案。
? ? ? ? ?
PS,我不認為LLM是唯一的最終路線,只是現(xiàn)階段最合適的路線。
? ? ? ? ?
OpenAI的成功有一定的偶然性,如果不是微軟在搜索領域本來就比較落后,所以敢于“搏命”,ChatGPT這種模式,對搜自身的索引擎業(yè)務是致命打擊(誰還去付廣告費?)。
? ? ? ? ?
從GPT-1到GPT-4的迭代,并非是由于關鍵技術革命性的突破(也不是認為這個過程中技術的發(fā)展不重要),而是數(shù)據(jù)量的增加。
? ? ? ? ?
4、瓶頸
? ? ? ? ?
對于中國企業(yè)來說,方向既定的情況下,并不缺人才(全球頂級AI科學家30%以上是中國人或華裔),缺的是資金和算力。
? ? ? ? ?
資金并不是一件太難的事,有了OpenAI金玉在前,國內(nèi)資本大佬也會舍得投入,但算力是個大問題。
? ? ? ? ?
美國限制了A100等高端顯卡對中國的出口,雖然黃皮衣第一時間推出了閹割版給中國特供,但性能差異非常明顯。
? ? ? ? ?
國產(chǎn)顯卡還剛剛起步,景嘉微還沒有向算力卡方向大規(guī)模發(fā)展,摩爾進程大概能接近英偉達5、6年前的水準,壁仞科技也拿出了不錯的產(chǎn)品,但大概率在代工方面受制于人。
? ? ? ? ?
考慮到OpenAI幾乎喂進去全人類的知識量,也不過燒掉十幾萬張顯卡,算力的問題,其實同樣可以“大力出奇跡”,用相對低端的產(chǎn)品堆起來,這可能需要各大AI企業(yè)攜手了。
? ? ? ? ?
有人認為中國的語境對AI的發(fā)展有嚴重束縛,殊不知在吃西瓜摘棉花都是敏感詞的美國,語境限制并不差到哪兒去,從技術上來講,這都是小事。
? ? ? ? ?
還有人認為顯卡的缺失和中國長期禁游戲有關,雖然我個人也反對無差別的禁游戲,但問題是也沒人用10萬塊(黑市20萬+)的A100來打游戲?。?/p>
? ? ? ? ?
? ? ? ? ?
5、應用
? ? ? ? ?
現(xiàn)在的GPT-4已經(jīng)開放了文字輸入輸出功能,展示(暫未開放)了圖像的識別和輸出功能,可以想象的未來,語音、視頻等真正多模態(tài)的輸入輸出,將成為各大AI企業(yè)創(chuàng)新研發(fā)的重點。
? ? ? ? ?
比如有人認為中文在互聯(lián)網(wǎng)上占比太低,導致GPT-4里的中文內(nèi)容缺乏。這個問題其實很好解決(事實上GPT-4也是這么辦的),把中文翻譯成英文后再輸入LLM,輸出再翻譯回來。
? ? ? ? ?
那么在語音結合方面,科大訊飛就比較有優(yōu)勢,可以把語音轉(zhuǎn)化成文字最終翻譯成英文喂給AI;類似的,在視頻結合方面,???、商湯、曠視等企業(yè)就有很大的優(yōu)勢,把視頻信息解讀為文本信息再喂給AI。
? ? ? ? ?
回過頭來再看當初的制裁,是不是豁然開朗了?