NLP大廠實訓(xùn)班5期
深度之眼學(xué)習(xí)筆記—— NLP基礎(chǔ)知識
在文本數(shù)據(jù)上執(zhí)行的一些基本操作
1 使用正則表達式進行文本搜索
????正則表達式:對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。
????給定一個正則表達式和另一個字符串,我們可以達到如下的目的:
1. 給定的字符串是否符合正則表達式的過濾邏輯(稱作“匹配”)
2. 可以通過正則表達式,從字符串中獲取我們想要的特定部分。
2 將文本轉(zhuǎn)化為列表
可以讀取一個文本文件并根據(jù)需要將其轉(zhuǎn)化為一列單詞或句子。
3 文本預(yù)處理
方式:
1、將一個單詞替換為另一個單詞;
2、刪除或添加某些特定類型的單詞;
標簽: