自然語言處理實用教程 | 數(shù)據(jù)清洗 | 2023年版
????????數(shù)據(jù)清洗的步驟包括 導(dǎo)入數(shù)據(jù)、去重、保留中文文本和導(dǎo)出數(shù)據(jù)。其中去重的目的是保留數(shù)據(jù)的多樣性,而保留中文文本的作用是剔除掉無關(guān)文本。
????????那么我們首先看看待清洗數(shù)據(jù)的格式:

????????可以看到句子都保存在列text中,那么對于輸出的數(shù)據(jù)而言格式一致。接下來上代碼:
????????對于去重而言,所有數(shù)據(jù)都適合這一操作,而保留中文文本的操作可以視情況而定。
標(biāo)簽: