小象學(xué)院NLP項(xiàng)目實(shí)戰(zhàn)進(jìn)階
最常見的10種自然語言處理技術(shù)
1. 詞干提取
什么是詞干提取?詞干提取是將詞語去除變化或衍生形式,轉(zhuǎn)換為詞干或原型形式的過程。詞干提取的目標(biāo)是將相關(guān)詞語還原為同樣的詞干,哪怕詞干并非詞典的詞目。
2. 詞形還原
什么是詞形還原? 詞形還原是將一組詞語還原為詞源或詞典的詞目形式的過程。還原過程考慮到了POS問題,即詞語在句中的語義,詞語對(duì)相鄰語句的語義等。
3. 詞向量化什么是詞向量化?詞向量化是用一組實(shí)數(shù)構(gòu)成的向量代表自然語言的叫法。這種技術(shù)非常實(shí)用,因?yàn)殡娔X無法處理自然語言。詞向量化可以捕捉到自然語言和實(shí)數(shù)間的本質(zhì)關(guān)系。通過詞向量化,一個(gè)詞語或者一段短語可以用一個(gè)定維的向量表示,例如向量的長(zhǎng)度可以為100。
標(biāo)簽: