中文分詞工具

一款產(chǎn)品的推出,運(yùn)營(yíng)者會(huì)為了收益亦或者流量,努力地去考慮如何覆蓋到互聯(lián)網(wǎng)的每一個(gè)角落。
假如,用戶需要對(duì)處理某個(gè)內(nèi)容進(jìn)行分詞處理、自然語(yǔ)言處理、中文分詞、詞性標(biāo)注等相關(guān)操作。天上掉下來(lái)一款不錯(cuò)的工具是可以很好地壓縮時(shí)間成本。
只是發(fā)帖,期待著有人會(huì)進(jìn)行解答,這樣的效果似乎并不會(huì)很好...
嘗試去檢索,你的禮物在安靜地等著你呢!

HanLP
hanlp提供自然語(yǔ)言處理全功能:自然語(yǔ)言處理、中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語(yǔ)義依存分析、新詞發(fā)現(xiàn)、關(guān)鍵詞短語(yǔ)提取、自動(dòng)摘要、文本分類聚類、情感分析、拼音簡(jiǎn)繁轉(zhuǎn)換、人工智能以及各類api的接口。


Stanford分詞
tanford分詞是一個(gè)基于自然語(yǔ)言處理技術(shù)的分詞工具。
Stanford分詞可以將文本按照句子和單詞進(jìn)行分割,是一款非常實(shí)用的分詞工具。這個(gè)工具是由斯坦福大學(xué)的自然語(yǔ)言處理小組開(kāi)發(fā)的,使用了一些非常高級(jí)的算法和技術(shù),包括隱馬爾可夫模型和條件隨機(jī)場(chǎng)等機(jī)器學(xué)習(xí)算法。


Ansj中文分詞工具
這是一個(gè)基于n-Gram+CRF+HMM的中文分詞的java實(shí)現(xiàn)。
分詞速度達(dá)到每秒鐘大約200萬(wàn)字左右(mac air下測(cè)試),準(zhǔn)確率能達(dá)到96%以上。
目前實(shí)現(xiàn)了中文分詞、中文姓名識(shí)別、用戶自定義詞典、關(guān)鍵字提取、自動(dòng)摘要、關(guān)鍵字標(biāo)記等功能。
可以應(yīng)用到自然語(yǔ)言處理等方面,適用于對(duì)分詞效果要求高的各種項(xiàng)目。

ltp.ai/

KCWS分詞器

THULAC:一個(gè)高效的中文詞法分析工具包
THULAC(THU Lexical Analyzer for Chinese)由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標(biāo)注功能。THULAC具有如下幾個(gè)特點(diǎn):
能力強(qiáng)。利用我們集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)(約含5800萬(wàn)字)訓(xùn)練而成,模型標(biāo)注能力強(qiáng)大。
準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese Treebank(CTB5)上分詞的F1值可達(dá)97.3%,詞性標(biāo)注的F1值可達(dá)到92.9%,與該數(shù)據(jù)集上最好方法效果相當(dāng)。
速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s,每秒可處理約15萬(wàn)字。進(jìn)行分詞速度可達(dá)到1.3MB/s。

NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)(之前發(fā)過(guò),這一個(gè)偶爾不靠譜)

ROST系列文本內(nèi)容挖掘分析平臺(tái),我個(gè)人喜歡用來(lái)處理小文本,只是要會(huì)用。
有好多的,文皮皮、jieba、ik,weici各種各樣看自己喜歡。