基于SVD的單詞分布式表示
參考了《深度學(xué)習(xí)進(jìn)階:自然語言處理》的第二章,基于共現(xiàn)矩陣計(jì)算點(diǎn)互信息,然后用SVD降維做word embedding
感想:拿基于統(tǒng)計(jì)的方法做詞嵌入還是太慢了!雖然解釋性比較強(qiáng),但是對(duì)于大的詞表來說算起來太慢了。莎士比亞的數(shù)據(jù)我只敢喂一小部分,全部喂進(jìn)去詞表維度有兩萬維,算共現(xiàn)矩陣的時(shí)間復(fù)雜度是n方,SVD降維時(shí)時(shí)間復(fù)雜度是n立方!數(shù)據(jù)清洗也很麻煩,拿到的原始數(shù)據(jù)得用正則表達(dá)式先處理下,正則匹配的時(shí)候記得用re.escape()方法來處理pattern。
數(shù)據(jù)集:https://ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt
標(biāo)簽: