《未來網(wǎng)絡(luò)》第三部技術(shù)背景:《基于詞或詞組長度和頻數(shù)的短中文文本關(guān)鍵詞提取算法》
2018-04-13 23:00 作者:執(zhí)念殘生輪回 | 我要投稿








中文文本的關(guān)鍵詞提取是自然語言處理研究中的難點。國內(nèi)外大部分關(guān)鍵詞提取的研究都是基于英文文本的,但其并不適用于中文文本的關(guān)鍵詞提取。已有的針對中文文本的關(guān)鍵詞提取算法大多適用于長文本,如何從一段短中文文本中準(zhǔn)確地提取出具有實際意義且與此段中文文本的主題密切相關(guān)的詞或詞組是研究的重點。提出了面向中文文本的基于詞或詞組長度和頻數(shù)的關(guān)鍵詞提取算法,此算法首先提取文本中出現(xiàn)頻數(shù)較高的詞或詞組,再根據(jù)這些詞或詞組的長度以及在文本中出現(xiàn)的頻數(shù)計算權(quán)重,從而篩選出關(guān)鍵詞或詞組。該算法可以準(zhǔn)確地從中文文本中提取出相對重要的詞或詞組,從而快速、準(zhǔn)確地提取此段中文文本的主題。實驗結(jié)果表明,基于詞或詞組長度和頻數(shù)的中文文本關(guān)鍵詞提取算法與已有的其他算法相比,可用于處理中文文本,且具有更高的準(zhǔn)確性。
標(biāo)簽: