手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » 中文分詞工具

中文分詞工具

2023-08-29 23:51 作者:她的袖口有朵玫瑰 0人讀過(guò) | 我要投稿

一款產(chǎn)品的推出，運(yùn)營(yíng)者會(huì)為了收益亦或者流量，努力地去考慮如何覆蓋到互聯(lián)網(wǎng)的每一個(gè)角落。

假如，用戶需要對(duì)處理某個(gè)內(nèi)容進(jìn)行分詞處理、自然語(yǔ)言處理、中文分詞、詞性標(biāo)注等相關(guān)操作。天上掉下來(lái)一款不錯(cuò)的工具是可以很好地壓縮時(shí)間成本。

只是發(fā)帖，期待著有人會(huì)進(jìn)行解答，這樣的效果似乎并不會(huì)很好...

嘗試去檢索，你的禮物在安靜地等著你呢！

HanLP

hanlp提供自然語(yǔ)言處理全功能：自然語(yǔ)言處理、中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、語(yǔ)義依存分析、新詞發(fā)現(xiàn)、關(guān)鍵詞短語(yǔ)提取、自動(dòng)摘要、文本分類聚類、情感分析、拼音簡(jiǎn)繁轉(zhuǎn)換、人工智能以及各類api的接口。

Stanford分詞

tanford分詞是一個(gè)基于自然語(yǔ)言處理技術(shù)的分詞工具。

Stanford分詞可以將文本按照句子和單詞進(jìn)行分割，是一款非常實(shí)用的分詞工具。這個(gè)工具是由斯坦福大學(xué)的自然語(yǔ)言處理小組開(kāi)發(fā)的，使用了一些非常高級(jí)的算法和技術(shù)，包括隱馬爾可夫模型和條件隨機(jī)場(chǎng)等機(jī)器學(xué)習(xí)算法。

Ansj中文分詞工具

這是一個(gè)基于n-Gram+CRF+HMM的中文分詞的java實(shí)現(xiàn)。

分詞速度達(dá)到每秒鐘大約200萬(wàn)字左右（mac air下測(cè)試），準(zhǔn)確率能達(dá)到96%以上。

目前實(shí)現(xiàn)了中文分詞、中文姓名識(shí)別、用戶自定義詞典、關(guān)鍵字提取、自動(dòng)摘要、關(guān)鍵字標(biāo)記等功能。

可以應(yīng)用到自然語(yǔ)言處理等方面，適用于對(duì)分詞效果要求高的各種項(xiàng)目。

ltp.ai/

KCWS分詞器

THULAC：一個(gè)高效的中文詞法分析工具包

THULAC（THU Lexical Analyzer for Chinese）由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包，具有中文分詞和詞性標(biāo)注功能。THULAC具有如下幾個(gè)特點(diǎn)：

能力強(qiáng)。利用我們集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)（約含5800萬(wàn)字）訓(xùn)練而成，模型標(biāo)注能力強(qiáng)大。

準(zhǔn)確率高。該工具包在標(biāo)準(zhǔn)數(shù)據(jù)集Chinese Treebank（CTB5）上分詞的F1值可達(dá)97.3％，詞性標(biāo)注的F1值可達(dá)到92.9％，與該數(shù)據(jù)集上最好方法效果相當(dāng)。

速度較快。同時(shí)進(jìn)行分詞和詞性標(biāo)注速度為300KB/s，每秒可處理約15萬(wàn)字。進(jìn)行分詞速度可達(dá)到1.3MB/s。

NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)（之前發(fā)過(guò)，這一個(gè)偶爾不靠譜）

ROST系列文本內(nèi)容挖掘分析平臺(tái)，我個(gè)人喜歡用來(lái)處理小文本，只是要會(huì)用。

有好多的，文皮皮、jieba、ik，weici各種各樣看自己喜歡。

標(biāo)簽：自然語(yǔ)言處理文本分析分詞工具