深度學(xué)習(xí)NLP大廠實訓(xùn)班
2023-02-26 14:36 作者:elyseedome | 我要投稿
語料獲取
語料的來源一般有:
(1)大廠公開的已經(jīng)建立好的開放語料庫;
(2)利用python等工具從網(wǎng)頁上爬取的內(nèi)容;
(3)公司自己的內(nèi)部數(shù)據(jù)。
2、文本預(yù)處理
去除非文本信息,如網(wǎng)頁上爬取來的一些標記符號,標點符號等;
分詞,英文單詞之間有間隔,因此很好區(qū)分開來,一般情況下只需要調(diào)用split()函數(shù)即可,但是中文單詞之間沒有間隔,需要首先進行分詞處理,一般有基于規(guī)則和基于統(tǒng)計這兩種方法。下面簡單介紹一下這兩種方法。
標簽: