散文網(wǎng) » 生活 »日常 » 九天菜菜GPT大模型與AIGC技術(shù)實(shí)戰(zhàn)課

九天菜菜GPT大模型與AIGC技術(shù)實(shí)戰(zhàn)課

2023-06-21 21:42 作者:呀我滴sixgod尼 0人讀過 | 我要投稿

以GPT系列為例：

1）GPT-1是上億規(guī)模的參數(shù)量，數(shù)據(jù)集使用了1萬本書的BookCorpus，25億單詞量；

2）GPT-2參數(shù)量達(dá)到了15億規(guī)模，其中數(shù)據(jù)來自于互聯(lián)網(wǎng)，使用了800萬在Reddit被鏈接過的網(wǎng)頁數(shù)據(jù)，清洗后越40GB（WebText)；

3）GPT-3參數(shù)規(guī)模首次突破百億，數(shù)據(jù)集上將語料規(guī)模擴(kuò)大到570GB的CC數(shù)據(jù)集(4千億詞)+WebText2(190億詞)+BookCorpus(670億詞)+維基百科(30億詞)。

可以看到，數(shù)據(jù)上面，每一代均相比前一代有了數(shù)量級(jí)的飛躍，無論是語料的覆蓋范圍、豐富度上都是絕對(duì)規(guī)模的增長(zhǎng)。可以預(yù)測(cè)到，下一代萬億模型，使用的數(shù)據(jù)如果相比GPT-3在質(zhì)量、來源和規(guī)模上沒有量級(jí)的變化，很難有質(zhì)的提升。

標(biāo)簽：