唐宇迪NLP實(shí)戰(zhàn)-Huggingface神器
HuggingFace 內(nèi)置數(shù)據(jù)集的使用
這一步非常簡(jiǎn)單,我們將使用兩個(gè)開(kāi)源庫(kù)。
數(shù)據(jù)集提供的方法
通過(guò)文檔我們看到了一些主要方法。第一個(gè)是數(shù)據(jù)集的列表,可以看到HuggingFace提供了 3500 個(gè)可用數(shù)據(jù)集
要實(shí)際使用數(shù)據(jù)集時(shí)可以使用 load_dataset 方法進(jìn)行加載
加載數(shù)據(jù)集后會(huì)返回一個(gè)數(shù)據(jù)集對(duì)象。
自定義數(shù)據(jù)集加載
我們?cè)谧罱K使用的時(shí)候肯定會(huì)用到自己的數(shù)據(jù),這時(shí)仍然可以將本地 CSV 文件和其他文件類(lèi)型加載到Dataset 對(duì)象中。例如,假設(shè)有一個(gè) CSV 文件,可以簡(jiǎn)單地將其傳遞給 load_dataset 方法。
也可以處理多個(gè) CSV 文件
當(dāng)使用 HuggingFace 提供的預(yù)訓(xùn)練模型對(duì)自己的數(shù)據(jù)集進(jìn)行微調(diào)時(shí),使用自定義數(shù)據(jù)集會(huì)非常方便。
標(biāo)簽: