中文詞向量資源導(dǎo)航

項(xiàng)目地址
https://github.com/Embedding/Chinese-Word-Vectors
本項(xiàng)目提供超過?100?種中文詞向量,其中包括不同的表示方式(稠密和稀疏)、不同的上下文特征(詞、N 元組、字等等)、以及不同的訓(xùn)練語料。獲取預(yù)訓(xùn)練詞向量非常方便,下載后即可用于下游任務(wù)。此外,項(xiàng)目還提供了中文詞類比任務(wù)數(shù)據(jù)集?CA8?和配套的評測工具,以便對中文詞向量進(jìn)行評估。所有的預(yù)訓(xùn)練詞向量文件均為文本格式。每一行都包括一個(gè)詞和它對應(yīng)的詞向量。所有的值均用空格分開。每個(gè)文件的第一行記錄了基本信息:第一個(gè)數(shù)值是文件中總詞數(shù),第二個(gè)數(shù)值是向量維度。除了稠密的詞向量(用 SGNS 方式訓(xùn)練的),我們也提供了稀疏的詞向量(用 PPMI 方式訓(xùn)練的)。稀疏的詞向量格式同 liblinear 中的一樣,以?位置:數(shù)值
?的方式存儲(chǔ)。
對于國內(nèi)自然語言處理的研究者而言,中文詞向量語料庫?是需求很大的資源。近日,來自北京師范大學(xué)中文信息處理研究所與中國人民大學(xué) DBIIR 實(shí)驗(yàn)室的研究者開源了「中文詞向量語料庫」,試圖為大家解決這一問題,該庫包含經(jīng)過數(shù)十種用各領(lǐng)域語料(百度百科、維基百科、人民日報(bào) 1947-2017、知乎、微博、文學(xué)、金融、古漢語等)訓(xùn)練的詞向量,涵蓋各領(lǐng)域,且包含多種訓(xùn)練設(shè)置。目前,該研究的論文《Analogical Reasoning on Chinese Morphological and Semantic Relations》已經(jīng)被 ACL2018 大會(huì)接收。
參考文獻(xiàn)
如果使用了本項(xiàng)目的詞向量和 CA8 數(shù)據(jù)集請進(jìn)行如下引用:
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du,?Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.

所有的預(yù)訓(xùn)練詞向量文件均為文本格式。每一行都包括一個(gè)詞和它對應(yīng)的詞向量。所有的值均用空格分開。每個(gè)文件的第一行記錄了基本信息:第一個(gè)數(shù)值是文件中總詞數(shù),第二個(gè)數(shù)值是向量維度。
除了稠密的詞向量(用 SGNS 方式訓(xùn)練的),項(xiàng)目也提供了稀疏的詞向量(用 PPMI 方式訓(xùn)練的)。稀疏的詞向量格式同 liblinear 中的一樣,以 “位置:數(shù)值” 的方式存儲(chǔ)。

詞向量調(diào)用演示代碼

個(gè)人用戶請微信搜索【跨象乘云】公眾號(kxcy_ai)或掃描下方二維碼,關(guān)注后發(fā)送關(guān)鍵字【220503】,免費(fèi)獲取視頻內(nèi)代碼與數(shù)據(jù)集??缦蟪嗽? 原創(chuàng)實(shí)驗(yàn)演示視頻內(nèi)全部代碼、數(shù)據(jù)集僅授權(quán)予個(gè)人用戶學(xué)習(xí)與實(shí)驗(yàn)使用。禁止用于二次銷售、分發(fā)傳播、課堂教學(xué)及培訓(xùn)用途。校企用戶采購請通過公眾號菜單【了解我們】->【商務(wù)合作】聯(lián)系。
