2023NLP項目實戰(zhàn)班[第1期]
數(shù)據(jù)清洗 + 分詞(系列標注任務(wù))
數(shù)據(jù)語料清洗。我們拿到文本的數(shù)據(jù)語料(Corpus)后,通常首先要做的是,分析并清洗下文本,主要用正則匹配刪除掉數(shù)字及標點符號(一般這些都是噪音,對于實際任務(wù)沒有幫助),做下分詞后,刪掉一些無關(guān)的詞(停用詞),對于英文還需要統(tǒng)一下復數(shù)、語態(tài)、時態(tài)等不同形態(tài)的單詞形式,也就是詞干/詞形還原。
分詞。即劃分為詞單元(token),是一個常見的序列標注任務(wù)。對于英文等拉丁語系的語句分詞,天然可以通過空格做分詞,

對于中文語句,由于中文詞語是連續(xù)的,可以用結(jié)巴分詞(基于trie tree+維特比等算法實現(xiàn)最大概率的詞語切分)等工具實現(xiàn)。
?
標簽: