小象自然語言處理項目實戰(zhàn)訓練營
自然語言處理實戰(zhàn)
文本表示方法大致分為三類,(底部評)即基于向量空間模型、基于主題模型和基于神經網絡的方法。
向量空間模型是將文本表示成實數值分量所構成的向量,一般而言,每個分量對應一個詞項,相當于將文本表示成空間中的一個點。向量不僅可以用來訓練分類器,而且計算向量之間的相似度可以度量文本之間的相似度。最常用的是TF-IDF計算方式,即向量的維度對應詞表的大小,對應維度使用TF-IDF計算。向量空間模型的優(yōu)點是簡單明了,向量維度意義明確,效果不錯,但也存在明顯的缺點,其一,維度隨著詞表增大而增大,且向量高度稀疏;其二,無法處理“一義多詞”和“一詞多義”問題。
標簽: