最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度之眼文本分類科研小班

2023-07-26 15:45 作者:bili_34604920956  | 我要投稿

數(shù)據(jù)清洗

在實際的中文文本分類問題中,我們面對的原始中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的部分,這部分數(shù)據(jù)或文本都需要在文本分類最開始的時候就被清洗干凈,否則很容易導致所謂的“Trash in,trash out”問題。除了一般分類問題的數(shù)據(jù)清洗都包含的缺失值處理、去重處理和噪聲處理等步驟之外,中文文本分類還應(yīng)該做到以下的清洗與處理以下數(shù)據(jù):

  • 非文本數(shù)據(jù)

很多時候我們的分類文本都來自爬蟲的爬取結(jié)果,因此文本中常常會附帶有HTML標簽、URL地址等非文本內(nèi)容,所以需要清除這部分內(nèi)容對分類沒有什么幫助的內(nèi)容。

  • 長串數(shù)字或字母

通常情況下中文文本中長串的數(shù)字代表手機號、車牌號、用戶名ID等文本內(nèi)容,在非特定的文本分類情境下可以去除?;蛘邔⑵滢D(zhuǎn)換為歸一化的特征,如是否出現(xiàn)長串數(shù)字的布爾值特征HAS_DIGITAL、按長度歸一的DIGIAL_LEN_10等等。值得一提的是,表情代號常常作為長串數(shù)字或字母出現(xiàn),卻能在情感分析中卻能起到巨大作用。

  • 無意義文本

此外,還需要過濾掉剩余文本當中的諸如廣告內(nèi)容、版權(quán)信息和個性簽名的部分,毫無疑問這些也都不應(yīng)該作為特征被模型所學習。


深度之眼文本分類科研小班的評論 (共 條)

分享到微博請遵守國家法律
阿克陶县| 丹巴县| 永川市| 唐海县| 抚远县| 吴忠市| 辽中县| 滦平县| 鹤山市| 苏州市| 榕江县| 夏邑县| 吴忠市| 澎湖县| 南郑县| 江津市| 丽水市| 永泰县| 盐边县| 比如县| 汕头市| 延安市| 卓尼县| 郑州市| 吉木萨尔县| 宁化县| 武定县| 增城市| 建始县| 武威市| 公主岭市| 年辖:市辖区| 天门市| 班玛县| 繁峙县| 淳化县| 广昌县| 南阳市| 德保县| 山丹县| 阳山县|