散文網(wǎng) » 生活 »日常 » 2023NLP項目實戰(zhàn)班[第1期]

2023NLP項目實戰(zhàn)班[第1期]

2023-07-10 10:59 作者:自爆鬼才比企谷 0人讀過 | 我要投稿

數(shù)據(jù)清洗 + 分詞（系列標注任務(wù)）

數(shù)據(jù)語料清洗。我們拿到文本的數(shù)據(jù)語料(Corpus)后，通常首先要做的是，分析并清洗下文本，主要用正則匹配刪除掉數(shù)字及標點符號（一般這些都是噪音，對于實際任務(wù)沒有幫助），做下分詞后，刪掉一些無關(guān)的詞（停用詞），對于英文還需要統(tǒng)一下復數(shù)、語態(tài)、時態(tài)等不同形態(tài)的單詞形式，也就是詞干/詞形還原。

分詞。即劃分為詞單元（token），是一個常見的序列標注任務(wù)。對于英文等拉丁語系的語句分詞，天然可以通過空格做分詞，

對于中文語句，由于中文詞語是連續(xù)的，可以用結(jié)巴分詞（基于trie tree+維特比等算法實現(xiàn)最大概率的詞語切分）等工具實現(xiàn)。

?

標簽：

2023NLP項目實戰(zhàn)班[第1期]的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

2023NLP項目實戰(zhàn)班[第1期]

2023NLP項目實戰(zhàn)班[第1期]的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

2023NLP項目實戰(zhàn)班[第1期]

本文作者的其他文章

2023NLP項目實戰(zhàn)班[第1期]的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

2023NLP項目實戰(zhàn)班[第1期]的評論 (共條)