HanLP實戰(zhàn)教程:離線本地版分詞與命名實體識別
? ? ? ? HanLP是一個功能強大的自然語言處理庫,提供了多種語言的分詞、命名實體識別等功能。然而,網上關于HanLP的說明往往比較混亂,很多教程都是針對很多年前的API用法。而HanLP官網主要講述的是RESTful格式的在線請求,但很少提到離線本地版本。
????????本文將介紹如何在離線本地環(huán)境中使用HanLP 2.1的native API進行中文分詞和命名實體識別。本文使用的HanLP版本為HanLP 2.1.0-beta.46。
? ? ? ? 基本思路是選擇單任務API,并加載了預訓練模型。首先對示例句子進行分詞(Tokenizer),然后再根據(jù)分詞結果進行命名實體識別(NER)。
1. 首先,我們需要安裝HanLP庫。使用以下命令進行安裝
2. 對示例句子進行分詞
3. 根據(jù)分詞結果進行命名實體識別
????????在這個過程中,我們選擇了單任務API。這種方法相較于RESTful API更適合本地離線使用,并且避免了網絡延遲等問題。

? ? ? ? ?在HanLP教程的GitHub頁面(https://github.com/hankcs/HanLP)中,有一個表格包含了不同功能、RESTful API、多任務API、單任務API以及預訓練模型等具體信息。這些信息可能不太容易找到,因此建議重點關注。
????????在實際使用過程中,可以根據(jù)自己的需求選擇合適的預訓練模型。同時,HanLP還提供了多任務API,允許用戶在一個統(tǒng)一的框架下執(zhí)行多種任務,如分詞、詞性標注和命名實體識別等。
參考資料
HanLP教程:https://github.com/hankcs/HanLP
分詞教程:https://hanlp.hankcs.com/docs/api/hanlp/pretrained/tok.html
命名實體識別教程:https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/ner_stl.ipynb