ChatGPT 爆火是大數據、大算力、強算法的支撐,中國缺乏的什么?
先來了解一下ChatGPT的基本情況
ChatGPT本質屬于生成式人工智能,屬于無監(jiān)督或半監(jiān)督的機器學習。與之相關的還有Discriminative modeling區(qū)分式模型,區(qū)分式模型大多屬于監(jiān)督式學習。
生成性人工智能目前有兩種主要的框架:GAN(Generative Adversarial Network )和GPT(Generative Pre-trained Transformer )。
GAN目前廣泛應用于圖像、視頻和語音生成,在醫(yī)療、自動駕駛、元宇宙等領域有實際的應用。
?
GPT是”Generative Pre-trained Transformer“生成型預訓練變換模型的縮寫,目的是為了使用深度學習生成人類可以理解的自然語言。

一、ChatGPT的產生是量變到質變的過程,積累了很多年,涉及到算力要有多少服務器,知識庫、標注等很多問題。
ChatGPT的訓練成本支出巨大。據Lambda Labs首席科學官Chuan li介紹,擁有1750億個參數的GPT-3單次訓練成本達到460萬美元。在知乎上,網友在討論ChatGPT時,也都認為它很“燒錢”。因此,可以說ChatGPT是一個靠大算力、高成本,用大規(guī)模的數據“喂”出來的AI模型。

二、數據背后是廣泛的應用場景,算力背后靠的是完善的信息基礎設施,算法背后需要深厚的人才儲備。
國內持續(xù)投入大模型研發(fā)、技術基礎扎實。目前,阿里達摩院的多模態(tài)大模型M6參數量已達10萬億,是全球最大的AI預訓練模型;華為盤古、百度文心等大模型的參數量都超過了千億,其中百度文心模型參數量已經達到2600億,不遜于GPT-3。
雖然國內外企業(yè)在算法研發(fā)上基本保持同等水平,但國內更注重大模型技術與行業(yè)場景的融合,對于數據標注和模型訓練等高成本的人力投入更為謹慎。
我們真正缺乏的是技術積累,包括數據怎么清洗、標注以及模型的結構設計,怎么訓練、推理,這個地方很多都需要經驗和積累。

三、用大數據、大算力、強算法“喂養(yǎng)”
AI大模型是人工智能邁向通用智能的里程碑技術,模型可以自動從數據中學習知識,提升性能。GPT是OpenAI推出的AI大模型系列。從2018年到2022年,OpenAI先后迭代并推出了GPT-1、GPT-2、GPT-3和InstructGPT,此次發(fā)布的ChatGPT就是在GPT-3的基礎上通過指令微調后得到的。
算法層面,ChatGPT的基礎是世界上最強大的LLM(大語言模型)之一——GPT-3,同時引入了基于人類反饋的強化學習方法,提高了對話的質量。
AI的訓練和使用也需要強大的算力支持。ChatGPT的訓練是在微軟云上進行的,在全球云計算市場,微軟云的市場份額排名第二。高水平、高市場份額,再加上芯片技術的高速發(fā)展,這都為ChatGPT的橫空出世奠定了堅實的算力基礎。

除了算法和算力,AI大模型的進步迭代,需要大量的數據進行訓練。2020年發(fā)布的GPT-3,其訓練參數量已經達到了驚人的1750億個,“大量的數據被反復‘喂’給ChatGPT?!?/p>
基礎算力和科研支撐少不了
筆者多年來一直專注于科學計算服務器,為多所高校做過多臺服務器和服務器計算集群,參與學校和院系實驗室、計算中心建設,擁有專業(yè)團隊和過硬的技術能力及經驗,所有配置都是結合科研實際需求配置,致力于打造國產科研服務器自主品牌,不斷探索國人科研工具的自力更生之路。
經過多年努力,已經成為專業(yè)的科學計算服務器、工作站、集群供應商,提供深度學習訓練、量化計算、分子動力學模擬、計算生物信息學、計算流體力學、有限元分析等科研方向軟硬件整體解決方案,為科研提供基礎算力支撐。
最后,希望我們科研人員有更多的自主權,更寬松的科研環(huán)境,更稱手的計算工具?。