AI 大模型應(yīng)用開發(fā)實戰(zhàn)營
數(shù)據(jù)準(zhǔn)備
在文心中,基于ERNIE的模型都不需要用戶自己分詞和生成詞表文件,非ERNIE的模型需要用戶自己提前切好詞,詞之間以空格分隔,并生成詞表文件。切詞和詞表生成可以使用「分詞工具與詞表生成工具」進行處理。
文心中的所有數(shù)據(jù)集、包含詞表文件、label_map文件等都必須為為utf-8格式,如果你的數(shù)據(jù)是其他格式,請使用「編碼識別及轉(zhuǎn)換工具」進行格式轉(zhuǎn)換。
在文本匹配任務(wù)中,根據(jù)其訓(xùn)練方式的不同,訓(xùn)練集分為Pointwise和Pairwise兩種格式,測試集、驗證集和預(yù)測集的格式相同。
非ERNIE數(shù)據(jù)的pointwise訓(xùn)練集、pairwise訓(xùn)練集、測試集、驗證集和預(yù)測集分別存放在./applications/tasks/text_matching/data目錄下的train_data_pointwise_tokenized、train_data_pairwise_tokenized、test_data_tokenized、dev_data_tokenized和predict_data_tokenized文件夾下。
?
標(biāo)簽: