深度之眼文本分類科研小班
2023-07-26 15:45 作者:bili_34604920956 | 我要投稿
數(shù)據(jù)清洗
在實際的中文文本分類問題中,我們面對的原始中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的部分,這部分數(shù)據(jù)或文本都需要在文本分類最開始的時候就被清洗干凈,否則很容易導致所謂的“Trash in,trash out”問題。除了一般分類問題的數(shù)據(jù)清洗都包含的缺失值處理、去重處理和噪聲處理等步驟之外,中文文本分類還應(yīng)該做到以下的清洗與處理以下數(shù)據(jù):
非文本數(shù)據(jù)
很多時候我們的分類文本都來自爬蟲的爬取結(jié)果,因此文本中常常會附帶有HTML標簽、URL地址等非文本內(nèi)容,所以需要清除這部分內(nèi)容對分類沒有什么幫助的內(nèi)容。
長串數(shù)字或字母
通常情況下中文文本中長串的數(shù)字代表手機號、車牌號、用戶名ID等文本內(nèi)容,在非特定的文本分類情境下可以去除?;蛘邔⑵滢D(zhuǎn)換為歸一化的特征,如是否出現(xiàn)長串數(shù)字的布爾值特征HAS_DIGITAL、按長度歸一的DIGIAL_LEN_10等等。值得一提的是,表情代號常常作為長串數(shù)字或字母出現(xiàn),卻能在情感分析中卻能起到巨大作用。
無意義文本
此外,還需要過濾掉剩余文本當中的諸如廣告內(nèi)容、版權(quán)信息和個性簽名的部分,毫無疑問這些也都不應(yīng)該作為特征被模型所學習。
標簽: