AI 大模型應(yīng)用開發(fā)實戰(zhàn)營

2023-07-22 12:24 作者:31775301 0人讀過 | 我要投稿

數(shù)據(jù)準(zhǔn)備

在文心中，基于ERNIE的模型都不需要用戶自己分詞和生成詞表文件，非ERNIE的模型需要用戶自己提前切好詞，詞之間以空格分隔，并生成詞表文件。切詞和詞表生成可以使用「分詞工具與詞表生成工具」進行處理。

文心中的所有數(shù)據(jù)集、包含詞表文件、label_map文件等都必須為為utf-8格式，如果你的數(shù)據(jù)是其他格式，請使用「編碼識別及轉(zhuǎn)換工具」進行格式轉(zhuǎn)換。
在文本匹配任務(wù)中，根據(jù)其訓(xùn)練方式的不同，訓(xùn)練集分為Pointwise和Pairwise兩種格式，測試集、驗證集和預(yù)測集的格式相同。
非ERNIE數(shù)據(jù)的pointwise訓(xùn)練集、pairwise訓(xùn)練集、測試集、驗證集和預(yù)測集分別存放在./applications/tasks/text_matching/data目錄下的train_data_pointwise_tokenized、train_data_pairwise_tokenized、test_data_tokenized、dev_data_tokenized和predict_data_tokenized文件夾下。

?

標(biāo)簽：