構(gòu)建中文人物關(guān)系知識圖譜:應(yīng)用于人物關(guān)系圖譜和知識問答

中文人物關(guān)系知識圖譜(含碼源):中文人物關(guān)系圖譜構(gòu)建、數(shù)據(jù)回標(biāo)、基于遠(yuǎn)程監(jiān)督人物關(guān)系抽取、知識問答等應(yīng)用.
項目介紹 知識抽取(實體關(guān)系抽取)是知識圖譜構(gòu)建中的核心環(huán)節(jié),實體關(guān)系抽取作為一項基本技術(shù)在自然語言處理應(yīng)用中扮演著重要作用. 究其技術(shù)而言,主要分成兩種三種主流方法:
1, 基于規(guī)則的方法
在工業(yè)界大多還是使用的規(guī)則模板的方法 這個項目提供了一種基于VOB模式的順承事件抽取方法,講的是一種順承關(guān)系 基于規(guī)則的方法,升級版的話,就是Bootstrapping了,可以通過用戶自定義種子模板,不斷迭代,最終擴(kuò)充模式,但置信度這個問題不是很好解決
2, 基于學(xué)習(xí)的方法
這個在學(xué)術(shù)界用的比較多,從機(jī)器學(xué)習(xí)一直演變了到現(xiàn)在的各種深度學(xué)習(xí)模型,而在這種方法中,通常實體關(guān)系抽取問題轉(zhuǎn)換成一個實體關(guān)系分類任務(wù)去做,主要可以分成一下幾種.
基于全監(jiān)督的實體關(guān)系抽取
這個全監(jiān)督,也就是說,基于完全標(biāo)注數(shù)據(jù)的一種學(xué)習(xí)方式,例如著名的實體關(guān)系評測Semeval系列,給出了19種關(guān)系分類任務(wù),ACE給出了17類的實體關(guān)系分類任務(wù).針對這些任務(wù),模型經(jīng)歷了CNN,LSTM,ATTENTION等,這里就不再說明.基于噪聲數(shù)據(jù)的遠(yuǎn)程監(jiān)督實體關(guān)系抽取
全監(jiān)督模型固然很好,但數(shù)據(jù)是一個很棘手的問題,因此就出現(xiàn)了遠(yuǎn)程監(jiān)督的方法,所謂遠(yuǎn)程監(jiān)督,個人理解就是已經(jīng)存在的知識庫進(jìn)行數(shù)據(jù)回標(biāo),然后通過多實例學(xué)習(xí)進(jìn)行一種容許噪聲的監(jiān)督方法.不過這種方法準(zhǔn)確率不是很高,在NYT這個數(shù)據(jù)集上,PCNNS等工作都沒有達(dá)到業(yè)業(yè)界可以使用的地步.當(dāng)然,最新出現(xiàn)了聯(lián)合訓(xùn)練的模型.基于規(guī)則與學(xué)習(xí)模型融合的實體關(guān)系抽取
這種方式,在業(yè)界或許是一種出路,例如,將實體關(guān)系抽取中的實體識別部分交給學(xué)習(xí)模型去做序列標(biāo)注,最后針對實體之間的關(guān)系,結(jié)合依存句法等語義規(guī)則去做,這個在解決實體的多種關(guān)系問題,可以去嘗試.
3, 項目難點
但就針對全監(jiān)督的實體關(guān)系抽取任務(wù)而言,在英文數(shù)據(jù)集上已經(jīng)在刷各種state-of-art,但就中文而言,感覺還是一片貧瘠.在網(wǎng)上搜了很久,最終指搜到COAE2016的一個評測任務(wù),但是,評測集不公開.因此,就拋出了本項目構(gòu)建的幾個初衷:
中文實體關(guān)系抽取數(shù)據(jù)集很少,能不能構(gòu)建一個準(zhǔn)確率可接受的數(shù)據(jù)集?
能不能淺顯易懂地把那些"高大上"的遠(yuǎn)程監(jiān)督,bootstrapping經(jīng)歷一遍?
人物關(guān)系數(shù)據(jù)在百科等平臺上都有放出,或許可以做為遠(yuǎn)程監(jiān)督的先驗知識庫?
能否提供一個實時動態(tài)更新的人物關(guān)系圖譜方法?
4,項目任務(wù)
本項目將嘗試完成以下幾個任務(wù):
完成一定規(guī)模的人物關(guān)系知識庫, 作為公開數(shù)據(jù)集開放出去走一遍實體關(guān)系回標(biāo),形成一個準(zhǔn)確性相對允許的人物關(guān)系抽取數(shù)據(jù)集走一遍基于學(xué)習(xí)方式實體關(guān)系抽取,查看一下效果,熟悉一下這個技術(shù)流程走一便基于Bootstrapping的實體關(guān)系抽取,熟悉一下這個技術(shù)流程基于構(gòu)建起來的人物關(guān)系圖譜,完成一個面向人物關(guān)系圖譜的知識問答
5.項目架構(gòu)圖

6.人物關(guān)系基礎(chǔ)知識庫
1,收集人名詞典
2,基于人名詞典,采集搜狗人物關(guān)系圖譜數(shù)據(jù)庫
劉備人物關(guān)系網(wǎng)

韓寒人物關(guān)系網(wǎng)

碼源跳轉(zhuǎn)
[碼源跳轉(zhuǎn)]https://blog.csdn.net/sinat_39620217/article/details/131933055
更多優(yōu)質(zhì)內(nèi)容請關(guān)注:汀丶人工智能;會提供一些相關(guān)的資源和優(yōu)質(zhì)文章,免費(fèi)獲取閱讀。
