AIGC與NLP大模型實(shí)戰(zhàn)-經(jīng)典CV與NLP大模型及其下游應(yīng)用任務(wù)實(shí)現(xiàn)教程
地址1:https://pan.baidu.com/s/1ezxdFCG9_DymgaYRC9LwIQ 提取碼: w99i
地址2:https://share.weiyun.com/jBv4dMhn 密碼:ja53dq
大模型并行計(jì)算技術(shù)
面向 GPU 運(yùn)算卡的并行計(jì)算是大模型訓(xùn)練部署過(guò)程中不可逾越 的鴻溝。
NVIDIA 論文中提到訓(xùn)練自己的 GPT,使用了 3072 張 80GB A100 訓(xùn)練 GPT,最大規(guī)模的模型參數(shù)量達(dá)到了 1T (GPT-3 原版的 5 倍)[35]。如此龐大的參數(shù)規(guī)模,單獨(dú)一塊 GPU 運(yùn)算卡甚至完成不了最基本的裝載。
由此可見(jiàn),GPU 并行是大模型訓(xùn)練的必備技術(shù)。不同于傳統(tǒng)并行以加快計(jì)算 速度為目的,大模型的并行計(jì)算往往還要考慮怎樣將龐大的參數(shù)有機(jī)地分布 到多張 GPU 卡中,并保持不同 GPU 卡之間有效的通信,整體配合完成大 模型的訓(xùn)練部署。
大模型(預(yù)訓(xùn)練模型、基礎(chǔ)模型等)是“大算力+ 強(qiáng)算法”結(jié)合的產(chǎn)物。大模型通常在大規(guī)模無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,以學(xué)習(xí)某種特征。在大模型進(jìn)行開(kāi)發(fā)應(yīng)用時(shí),將大模型進(jìn)行微調(diào),如對(duì)某些下游任務(wù)進(jìn)行小規(guī)模標(biāo)注數(shù)據(jù)的二次訓(xùn)練或不進(jìn)行微調(diào)就可以完成。
遷移學(xué)習(xí)是預(yù)訓(xùn)練技術(shù)的主要思想,當(dāng)目標(biāo)場(chǎng)景數(shù)據(jù)不足時(shí),先在數(shù)據(jù)量大的公開(kāi)數(shù)據(jù)集上訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的 AI 模型,然后將其遷移到目標(biāo)場(chǎng)景中,通過(guò)目標(biāo)場(chǎng)景中的小數(shù)據(jù)集進(jìn)行微調(diào),使模型達(dá)到要求的性能。在這個(gè)過(guò)程中,在公開(kāi)數(shù)據(jù)集上訓(xùn)練的深度網(wǎng)絡(luò)模型被稱(chēng)為“預(yù)訓(xùn)練模型”。使用預(yù)訓(xùn)練模型極大地減少了模型在標(biāo)記數(shù)據(jù)量下游工作的需要,從而解決了一些難以獲得大量標(biāo)記數(shù)據(jù)的新場(chǎng)景