九天菜菜GPT大模型與AIGC技術(shù)實(shí)戰(zhàn)課
2023-06-21 21:42 作者:呀我滴sixgod尼 | 我要投稿
以GPT系列為例:
1)GPT-1是上億規(guī)模的參數(shù)量,數(shù)據(jù)集使用了1萬本書的BookCorpus,25億單詞量;
2)GPT-2參數(shù)量達(dá)到了15億規(guī)模,其中數(shù)據(jù)來自于互聯(lián)網(wǎng),使用了800萬在Reddit被鏈接過的網(wǎng)頁數(shù)據(jù),清洗后越40GB(WebText);
3)GPT-3參數(shù)規(guī)模首次突破百億,數(shù)據(jù)集上將語料規(guī)模擴(kuò)大到570GB的CC數(shù)據(jù)集(4千億詞)+WebText2(190億詞)+BookCorpus(670億詞)+維基百科(30億詞)。

可以看到,數(shù)據(jù)上面,每一代均相比前一代有了數(shù)量級(jí)的飛躍,無論是語料的覆蓋范圍、豐富度上都是絕對(duì)規(guī)模的增長(zhǎng)。可以預(yù)測(cè)到,下一代萬億模型,使用的數(shù)據(jù)如果相比GPT-3在質(zhì)量、來源和規(guī)模上沒有量級(jí)的變化,很難有質(zhì)的提升。
標(biāo)簽: