大模型:算法、算力、數據及應用
大模型是 AI 開發(fā)的新范式,是人工智能邁向通用智能的里程碑:大模型指通過在大規(guī)模寬泛的數據上進行訓練后能適應一系列下游任務的模型,本質依舊是基于統計學的語言模型,只不過“突現能力”賦予其強大的推理能力。大模型的訓練和推理都會用到 AI 芯片的算力支持,在數據和算法相同情況下,算力是大模型發(fā)展的關鍵,是人工智能時代的“石油”。 1. 算法:大模型——人工智能邁向通用智能的里程碑 大模型就是 Foundation Model(基礎模型),指通過在大規(guī)模寬泛的數據上進行訓練后能適應一系列下游任務的模型。大模型兼具“大規(guī)模”和“預訓練”兩種屬性,面向實際任務建模前需在海量通用數據上進行預先訓練,能大幅提升人工智能的泛化性、通用性、實用性,是人工智能邁向通用智能的里程碑技術。 大模型的本質依舊是基于統計學的語言模型,“突現能力”賦予其強大的推理能力。當前幾乎所有參數規(guī)模超過千億的大語言模型都采取 GPT 模式。近些年來,大型語言模型研究的發(fā)展主要有三條技術路線:Bert 模式、GPT 模式以及混合模式。Bert 模式適用于理解類、做理解類、某個場景的具體任務,專而輕,2019 年后基本上就沒有什么標志性的新模型出現;混合模式大部分則是由國內采用;多數主流大語言模型走的還是 GPT 模式,2022 年底在 GPT-3.5 的基礎上產生了ChatGPT,GPT 技術路線愈發(fā)趨于繁榮。 GPT4 作為人工智能領域最先進的語言模型,在如下四個方面有較大的改進。 1)多模態(tài):GPT4 可以接受文本和圖像形式的 prompt,在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等); 2)多語言:在測試的 26種語言的 24 種中,GPT-4 優(yōu)于 GPT-3.5 和其他大語言模型(Chinchilla,PaLM)的英語語言性能; 3)“記憶力”:GPT-4 的最大 token 數為 32,768,即 2^15,相當于大約64,000 個單詞或 50頁的文字,遠超 GPT-3.5 和舊版 ChatGPT 的 4,096 個 token; 4)個性化:GPT-4 比 GPT-3.5 更原生地集成了可控性,用戶將能夠將“具有固定冗長、語氣和風格的經典 ChatGPT 個性”更改為更適合他們需要的東西。 2. 算力:AI 訓練的基礎設施 大模型算力成本主要分為初始訓練成本和后續(xù)運營成本。 初始訓練:根據 openAI 官網數據,每個 token(token 是服務端生成的一串字符串,以作客戶端進行請求的一個令牌)的訓練成本通常約為 6N FLOPS(FLOPS 指每秒浮點運算次數,理解為計算速度,可以用來衡量硬件的性能),其中 N 是 LLM(大型語言模型)的參數數量。1750 億參數模型的 GPT-3 是在 3000 億 token 上進行訓練的。根據openAI 官網數據,在訓練過程中,模型的 FLOPS 利用率為 46.2%。我們假設訓練時間為 1 個月,采用英偉達 A100 進行訓練計算(峰值計算能力為 312 TFLOPS FP16/FP32),則測算結果為需要 843 顆英偉達 A100 芯片。 運營(推理)成本:運營階段所需算力量與使用者數量緊密相關。根據 openAI 官網數據,每個token 的推理成本通常約為 2N FLOPS,其中 N 是 LLM 的參數數量。根據openAI 官網數據,在訓練過程中,模型的 FLOPS 利用率為 21.3%。同樣采用英偉達 A100進行推理計算(峰值計算能力為 312 TFLOPS FP16/FP32)。我們假設 GPT-3 每日 5000萬活躍用戶,每個用戶提 10 個問題,每個問題回答 400 字,則測算結果為需要 16255顆英偉達 A100 芯片。 GPT-4 為多模態(tài)大模型,對算力要求相比 GPT-3 會提升 10 倍。GPT-4 的收費是 8k context 為$0.03/1k token,是 GPT-3.5-turbo 收費的 15 倍($0.002 / 1K tokens),因此我們推斷GPT-4 的參數量是 GPT-3 的 10 倍以上,預計 GPT-4 的算力需求是 GPT-3 的 10 倍以上。 國產大模型有望帶動國內新增 A100 出貨量超 200 萬顆,使得中國算力市場空間增加 2 倍以上。我們假設國內百度,華為,阿里,騰訊,字節(jié)等前 10 位頭部大廠都會發(fā)布自己的大模型。 加速卡國產化率較低,美國制裁加速。根據 IDC 數據,2021 年,中國加速卡市場中 Nvidia 占據超過 80%市場份額。 英偉達推出中國特供版 A800,算力與 A100 基本一致。2022 年 11 月 8 日,英偉達推出 A800 GPU,將是面向中國客戶的 A100 GPU 的替代產品。A800 符合美國政府關于減少出口管制的明確測試,并且不能通過編程來超過它。A800 GPU 在算力上與 A100 保持一致,但增加了 40GB顯存的 PCIe 版本,但在 NVLink 互聯速度上,A800 相較于A100 下降了 200GB/s 的速度。同時,A800 80GB SXM 版本目前已經不支持 16 塊 GPU的成套系統,上限被限制在 8 塊??偟膩砜?,A800 能夠滿足國內市場需求,是 A100 的平替版本。 3. 數據:AI 發(fā)展的驅動力 數據資源是 AI 產業(yè)發(fā)展的重要驅動力之一。數據集作為數據資源的核心組成部分,是指經過專業(yè)化設計、采集、清洗、標注和管理,生產出來的專供人工智能算法模型訓練的數據。 大模型的訓練數據主要來自于維基百科、書籍、期刊、Reddit 社交新聞站點、Common Crawl和其他數據集。OpenAI 雖沒有直接公開 ChatGPT 的相關訓練數據來源和細節(jié),但可以從近些年業(yè)界公布過的其他大模型的訓練數據推測出 ChatGPT 的訓練數據來源,近幾年大模型訓練采用的數據來源基本類似。國內大模型的數據來源和自身優(yōu)勢業(yè)務有較強相關性,如百度文心一言大模型的來源主要基于互聯網公開數據,包括網頁、搜索、圖片、語音日均調用數據,以及知識圖譜等。 GPT4 依靠大量多模態(tài)數據訓練。GPT4 是一個大規(guī)模的多模態(tài)模型,相比于此前的語言生成模型,數據方面最大的改進之一就是突破純文字的模態(tài),增加了圖像模態(tài)的輸入,具有強大的圖像理解能力,即在預練習階段輸入任意順序的文本和圖畫,圖畫經過 Vision Encoder 向量化、文本經過普通 transformer 向量化,兩者組成多模的句向量,練習目標仍為 next-word generation。根據騰訊云開發(fā)者推測,GPT4 訓練數據中還額外增加了包含正誤數學問題、強弱推理、矛盾一致陳述及各種意識形態(tài)的數據,數據量可能是 GPT3.5(45TB 數據)的 190 倍。 4. 應用:AI 的星辰大海 AI 時代已經來臨,最大的市場將是被 AI 賦能的下游應用市場。如果說 AI 是第四次工業(yè)革命,那么正如前三次工業(yè)革命,最大的市場將是被 AI 賦能的下游應用市場。本輪革命性的產品 ChatGPT將極大地提升內容生產力,率先落地于 AIGC 領域,打開其產業(yè)的想象邊界。文本生成、代碼生成、圖像生成以及智能客服將是能直接賦予給下游行業(yè)的能力,打開其產業(yè)想象的邊界。 最直接的應用在內容創(chuàng)作領域。ChatGPT 的功能核心是基于文本的理解和分析,與內容創(chuàng)作行業(yè)趨同。ChatGPT 可用于創(chuàng)建新聞文章、博客文章甚至小說等內容,它可以生成原創(chuàng)且連貫的內容,為內容創(chuàng)作者節(jié)省時間和資源。整體生成式 AI 已用于創(chuàng)建圖像,視頻,3D 對象,Skyboxes等。這大大節(jié)省了創(chuàng)作時間,同時帶來了多樣的創(chuàng)作風格。 ChatGPT 解決了機器人的痛點。ChatGPT 開啟了一種新的機器人范式,允許潛在的非技術型用戶參與到回路之中,ChatGPT 可以為機器人場景生成代碼。在沒有任何微調的情況下,利用 LLM 的知識來控制不同的機器人動作,以完成各種任務。ChatGPT大大改善了機器人對指令的理解,并且不同于以前單一、明確的任務,機器人可以執(zhí)行復合型的任務。 ChatGPT 在芯片設計領域的應用。傳統的芯片設計強烈依賴模板而忽視了大量可以復用的優(yōu)秀數據,同時數據量大導致 ChatGPT 泛化性更好。此外芯片硬件模塊相對單一,有一些成熟范式,芯片設計代碼復雜但人工不足,這些都與 ChatGPT 有很好的互補。AI 使得芯片開發(fā)成本降低、周期縮短,具備足夠多訓練數據和 AI 能力的芯片設計公司競爭優(yōu)勢可能會擴大。