散文網(wǎng) » 生活 »日常 » 深度之眼文本分類科研小班

深度之眼文本分類科研小班

2023-07-26 15:45 作者:bili_34604920956 0人讀過 | 我要投稿

數(shù)據(jù)清洗

在實際的中文文本分類問題中，我們面對的原始中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的部分，這部分數(shù)據(jù)或文本都需要在文本分類最開始的時候就被清洗干凈，否則很容易導致所謂的“Trash in，trash out”問題。除了一般分類問題的數(shù)據(jù)清洗都包含的缺失值處理、去重處理和噪聲處理等步驟之外，中文文本分類還應(yīng)該做到以下的清洗與處理以下數(shù)據(jù)：

非文本數(shù)據(jù)

很多時候我們的分類文本都來自爬蟲的爬取結(jié)果，因此文本中常常會附帶有HTML標簽、URL地址等非文本內(nèi)容，所以需要清除這部分內(nèi)容對分類沒有什么幫助的內(nèi)容。

長串數(shù)字或字母

通常情況下中文文本中長串的數(shù)字代表手機號、車牌號、用戶名ID等文本內(nèi)容，在非特定的文本分類情境下可以去除?；蛘邔⑵滢D(zhuǎn)換為歸一化的特征，如是否出現(xiàn)長串數(shù)字的布爾值特征HAS_DIGITAL、按長度歸一的DIGIAL_LEN_10等等。值得一提的是，表情代號常常作為長串數(shù)字或字母出現(xiàn)，卻能在情感分析中卻能起到巨大作用。

無意義文本

此外，還需要過濾掉剩余文本當中的諸如廣告內(nèi)容、版權(quán)信息和個性簽名的部分，毫無疑問這些也都不應(yīng)該作為特征被模型所學習。

標簽：

深度之眼文本分類科研小班的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

深度之眼文本分類科研小班

深度之眼文本分類科研小班的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

深度之眼文本分類科研小班

本文作者的其他文章

深度之眼文本分類科研小班的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

深度之眼文本分類科研小班的評論 (共條)