醫(yī)療領(lǐng)域3.7萬實體知識圖譜問答系統(tǒng),頂尖科技實現(xiàn)從零構(gòu)建!

從零構(gòu)建醫(yī)療領(lǐng)域知識圖譜的KBQA問答系統(tǒng):其中7類實體,約3.7萬實體,21萬實體關(guān)系。
項目效果
以下兩張圖是系統(tǒng)實際運(yùn)行效果:

1.項目運(yùn)行方式
運(yùn)行環(huán)境:Python3 數(shù)據(jù)庫:neo4j 預(yù)訓(xùn)練詞向量:https://github.com/Embedding/Chinese-Word-Vectors
1、搭建知識圖譜:python buildgrapy.py。大概幾個小時,耐心等待。 2、啟動問答測試:python kbqatest.py
2.醫(yī)療知識圖譜
數(shù)據(jù)源:39健康網(wǎng)。包括15項信息,其中7類實體,約3.7萬實體,21萬實體關(guān)系。
本系統(tǒng)的知識圖譜結(jié)構(gòu)如下:

1.1 知識圖譜實體類型

1.2 知識圖譜實體關(guān)系類型

1.3 知識圖譜疾病屬性

3.問題意圖識別
基于特征詞分類的方法來識別用戶查詢意圖

4.總結(jié)
1、本項目構(gòu)建簡單,通過本項目能了解KBQA的工作流程。
2、本次通過手工標(biāo)記210條意圖分類訓(xùn)練數(shù)據(jù),并采用樸素貝葉斯算法訓(xùn)練得到意圖分類模型。其最佳測試效果的F1值達(dá)到了96.68%。選用NB的原因是通過與SVM訓(xùn)練效果比較后決定的。
3、優(yōu)化點(diǎn):
訓(xùn)練數(shù)據(jù)還是太少,且對問題進(jìn)行標(biāo)注時易受主觀意見影響。意圖類別還是太少,本系統(tǒng)得到分類模型只能預(yù)測出上面設(shè)定的7類意圖。
對于問題句子中有多個意圖的情況只能預(yù)測出一類,今后有時間再訓(xùn)練多標(biāo)簽?zāi)P桶伞!?/p>
知識圖譜太小了,對于許多問題都檢索不出答案。今后可以爬取其它的健康網(wǎng)站數(shù)據(jù)或者利用命名實體識別和關(guān)系抽取技術(shù)從醫(yī)學(xué)文獻(xiàn)中抽取出實體與關(guān)系,以此來擴(kuò)充知識圖譜。
在本項目中采用了預(yù)訓(xùn)練的詞向量來找近似詞。由于該詞向量特別大,加載非常耗時,因此影響了整個系統(tǒng)的效率。這個可能是因為電腦配置太低的原因吧。
沒有實現(xiàn)推理的功能,后續(xù)將采用多輪對話的方式來理解用戶的查詢意圖。同時將對檢索出的結(jié)果進(jìn)行排序,可靠度高的排在前面。
項目鏈接跳轉(zhuǎn)
[文章碼源鏈接] (https://blog.csdn.net/sinat_39620217/article/details/131968727)
更多優(yōu)質(zhì)內(nèi)容請關(guān)注:汀丶人工智能;會提供一些相關(guān)的資源和優(yōu)質(zhì)文章,免費(fèi)獲取閱讀。
