最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

抽象解釋知識(shí)圖譜構(gòu)建管道

2023-11-17 16:54 作者:北京IT學(xué)院  | 我要投稿

互聯(lián)網(wǎng)的出現(xiàn)允許大量?jī)?nèi)容創(chuàng)作者訪問(wèn)以生成信息。正因?yàn)槿绱耍F(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了大量的數(shù)據(jù)。為了提供有用的見解,我們需要一種有效的方式來(lái)表示所有這些數(shù)據(jù)。一種這樣有效的知識(shí)表示方法是通過(guò)知識(shí)圖譜。簡(jiǎn)而言之,知識(shí)圖譜是一個(gè)由相互連接的數(shù)據(jù)組成的大型網(wǎng)絡(luò)。知識(shí)圖譜是根據(jù)知識(shí)庫(kù)構(gòu)建的。知識(shí)庫(kù)從網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)、音頻和視頻內(nèi)容上的免費(fèi)文本中收集信息。知識(shí)圖譜構(gòu)建過(guò)程的基本流程如圖所示。


在這里,向大家推薦一下中培IT學(xué)院機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)圖像處理及知識(shí)圖譜應(yīng)用與核心技術(shù)實(shí)戰(zhàn)課程,課程詳細(xì)講解了包括但不限于知識(shí)圖譜構(gòu)建的相關(guān)知識(shí)。

現(xiàn)在,讓我們?cè)敿?xì)了解一下在這個(gè)管道中發(fā)生的過(guò)程。

在管道的第一階段,我們從自由文本中識(shí)別事實(shí)。最初,我們?cè)诨ヂ?lián)網(wǎng)上搜索,通過(guò)從自由文本中識(shí)別實(shí)體和實(shí)體所涉及的關(guān)系來(lái)過(guò)濾有用的信息。這個(gè)識(shí)別過(guò)程使用自然語(yǔ)言處理技術(shù)進(jìn)行,如命名實(shí)體解析、引理化和詞干。因此,在第一步中從自由文本中提取的數(shù)據(jù)可能類似于以下語(yǔ)句的形式。

“盧浮宮位于巴黎”

進(jìn)入管道的第二階段,在知識(shí)庫(kù)中以三元組的形式對(duì)語(yǔ)句進(jìn)行概括;這些三元組將被分類在不同的本體下,使用本體提取過(guò)程,該過(guò)程也可以利用自然語(yǔ)言處理技術(shù)的能力。三元組由主語(yǔ)、謂語(yǔ)及其賓語(yǔ)組成。主語(yǔ)和賓語(yǔ)是謂詞定義的關(guān)系中所涉及的實(shí)體。因此,對(duì)于前面從自由文本中確定的陳述,我們將其分解為以下知識(shí)庫(kù)的三元組形式。

主題:盧浮宮

謂詞:位于

對(duì)象:巴黎

因此,在一個(gè)知識(shí)庫(kù)中,我們將以islocated(巴黎盧浮宮)的形式存在上述關(guān)系。這是知識(shí)庫(kù)中的單個(gè)三元組。在實(shí)踐中,知識(shí)庫(kù)包括數(shù)百萬(wàn)這樣的三元組,我們也將其稱為事實(shí)。這些事實(shí)在知識(shí)庫(kù)中被歸為本體論。本體論是事實(shí)的特定領(lǐng)域的一個(gè)識(shí)別類別。因此,本體論解釋了該類別中存在的實(shí)體類型。例如,如果本體是“機(jī)場(chǎng)”,那么,屬于這一類別的一些實(shí)體可能包括“addison機(jī)場(chǎng)”、“charles de gaulle機(jī)場(chǎng)”和“mandelieu機(jī)場(chǎng)”,等等。

知識(shí)庫(kù)可以是特定領(lǐng)域的,也可以是通用的。醫(yī)學(xué)知識(shí)庫(kù)和學(xué)術(shù)研究論文知識(shí)庫(kù)是一些特定領(lǐng)域的知識(shí)庫(kù)。然而,通用知識(shí)庫(kù)并不將其知識(shí)限制在特定領(lǐng)域。它們涵蓋了更廣泛的世俗事實(shí)和多個(gè)領(lǐng)域。

在我們進(jìn)入管道的最后階段,即知識(shí)圖譜之前,請(qǐng)參閱下表,了解從原始論文中理解的各種知識(shí)庫(kù)的一些特征。該表列出了過(guò)去幾十年中最重要的知識(shí)庫(kù)。




關(guān)于知識(shí)庫(kù),讓我們進(jìn)一步解釋NELL知識(shí)庫(kù),因?yàn)槲覀儗⒖紤]NELL處理事實(shí)的方式,作為我們稍后將討論的管道的知識(shí)圖譜構(gòu)建階段的樣本。

NELL知識(shí)庫(kù)

Never Ending Language Learner(NELL)是卡內(nèi)基梅隆大學(xué)于2010年啟動(dòng)的一個(gè)項(xiàng)目。它的建模是為了彌補(bǔ)學(xué)習(xí)系統(tǒng)和實(shí)際人類學(xué)習(xí)之間的差異。因此,它基于這樣一個(gè)概念,即對(duì)事實(shí)的不斷學(xué)習(xí)塑造了專業(yè)知識(shí)。自2010年以來(lái),NELL一直在不斷學(xué)習(xí)事實(shí)。這個(gè)知識(shí)庫(kù)主要執(zhí)行兩項(xiàng)任務(wù)。

1.信息提取:搜索語(yǔ)義網(wǎng)以發(fā)現(xiàn)新的事實(shí),積累這些事實(shí)并不斷擴(kuò)展其知識(shí)庫(kù)。

2.增強(qiáng)學(xué)習(xí)過(guò)程:基于以前提取信息的經(jīng)驗(yàn),NELL試圖通過(guò)返回前一天從中了解事實(shí)的頁(yè)面并搜索新的事實(shí)來(lái)提高學(xué)習(xí)能力。

NELL的事實(shí)基于本體論分類:實(shí)體或關(guān)系。基于實(shí)體的本體分類由可能發(fā)生在該領(lǐng)域中的實(shí)例的子域組成,而基于關(guān)系的本體分類包括基于連接實(shí)體實(shí)例的關(guān)系的事實(shí)的子域。NELL中的事實(shí)是三元組(主賓謂語(yǔ))的形式。例如

示例:“自由女神像位于紐約”

作為三元組,上述事實(shí)可以表示為locatedIn(statueOfLiberty,New York),其中,

主題:自由女神

謂詞:locatedIn

對(duì)象:紐約

NELL的事實(shí)是使用文本上下文模式、正交分類器、URL指定的ML模式、學(xué)習(xí)嵌入、圖像分類器和本體擴(kuò)展程序提取的。目前,NELL受到限制,因?yàn)樗鼰o(wú)法修改其定義的學(xué)習(xí)過(guò)程。如果學(xué)習(xí)過(guò)程可以在先前學(xué)習(xí)經(jīng)驗(yàn)的基礎(chǔ)上動(dòng)態(tài)增強(qiáng),那么NELL可以提高其事實(shí)的質(zhì)量和積累事實(shí)的性能。

現(xiàn)在,讓我們進(jìn)入管道的最后階段,看看知識(shí)庫(kù)中的三元組是如何轉(zhuǎn)換為知識(shí)圖譜的。


知識(shí)圖譜

知識(shí)圖譜是一個(gè)由相互連接的實(shí)體組成的大型網(wǎng)絡(luò)。這些連接是基于知識(shí)庫(kù)中的三元組創(chuàng)建的。知識(shí)圖譜的主要目的是識(shí)別實(shí)體之間缺失的鏈接。為了進(jìn)一步解釋這一點(diǎn),讓我們考慮一下我們從知識(shí)庫(kù)中收集的以下樣本關(guān)系。

朋友(安妮,簡(jiǎn))

朋友(簡(jiǎn)、吉姆)

LivesIn(安妮,巴黎)

LivesIn(Jim,巴西)

LivesIn(Jane,巴西)

博恩(安妮,巴黎)

BornIn(Jim,Paris)

如果我們?cè)噲D僅基于上述關(guān)系來(lái)構(gòu)建一個(gè)基本知識(shí)圖譜,我們將能夠可視化下圖。


另一方面,存在一些未從知識(shí)庫(kù)中明確檢索到的未知關(guān)系,例如,

安妮和吉姆是朋友嗎?

簡(jiǎn)的出生地是哪里?

這意味著這種關(guān)系可以被視為缺失的環(huán)節(jié)。


這些缺失的環(huán)節(jié)是使用統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)框架推斷出來(lái)的。這些SRL框架計(jì)算推斷/預(yù)測(cè)鏈接的關(guān)系置信度。以前的工作試圖以不同的方式發(fā)現(xiàn)新的/缺失的信息,并計(jì)算推斷這些信息的置信度。下文將簡(jiǎn)要討論這些問(wèn)題。

在管道的第一階段,我們從自由文本中提取事實(shí),我們也經(jīng)常以錯(cuò)誤的事實(shí)告終。為了從這些事實(shí)中識(shí)別出一個(gè)穩(wěn)定的知識(shí)圖譜,Cohen等人提出了一種聯(lián)合評(píng)估提取事實(shí)的方法。這種方法的問(wèn)題在于,它只考慮了提取的事實(shí)中可能出現(xiàn)的一組微不足道的錯(cuò)誤。

作為管道的第二階段,我們從提取的事實(shí)中找到三元組,這些三元組將構(gòu)成知識(shí)庫(kù)。在此過(guò)程中,在最后階段,我們需要通過(guò)從知識(shí)庫(kù)三元組中推斷缺失的鏈接來(lái)發(fā)現(xiàn)新的事實(shí)。為此,繼Cohen之后,Jiang等人采用馬爾可夫邏輯網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)提取的事實(shí)之間的關(guān)系。他們定義了以一階邏輯規(guī)則的形式指定的本體論約束。這些約束將管理可以推斷的可能關(guān)系。然而,在馬爾可夫邏輯網(wǎng)絡(luò)中,我們稱之為“謂詞”的邏輯關(guān)系只能為其變量取布爾值。這在推斷對(duì)事實(shí)的置信度方面是不利的。

這導(dǎo)致了概率軟邏輯(PSL)的定義,它使用了Jiang等人和馬爾可夫邏輯網(wǎng)絡(luò)的概念,并定義了一個(gè)復(fù)雜的統(tǒng)計(jì)關(guān)系框架,該框架對(duì)所有事實(shí)進(jìn)行聯(lián)合推理,以在先前事實(shí)的基礎(chǔ)上發(fā)現(xiàn)新的/缺失的信息。除此之外,PSL還概率性地計(jì)算置信值,該置信值是[0,1]范圍內(nèi)(包括[0,1])的軟真值,以表明PSL程序根據(jù)所提供的內(nèi)容在多大程度上相信該事實(shí)是真實(shí)的。

一旦發(fā)現(xiàn)了新的/缺失的信息,并計(jì)算了它們的置信度,我們就可以構(gòu)建一個(gè)具有高度置信事實(shí)的知識(shí)圖譜。這將為我們提供一個(gè)圖表,其中除了提取的原始事實(shí)之外,還可以獲得無(wú)法明確驅(qū)動(dòng)的新信息。這就是我們?nèi)绾斡弥R(shí)庫(kù)中的事實(shí)和基于現(xiàn)有觀察結(jié)果的新發(fā)現(xiàn)的事實(shí)構(gòu)建知識(shí)圖譜。

最后,當(dāng)我們總結(jié)知識(shí)圖譜管道的這些級(jí)聯(lián)步驟時(shí),在更高的層次上,以下是構(gòu)建知識(shí)圖譜的過(guò)程。

階段1:從自由文本中提取事實(shí)

數(shù)據(jù)是從自由文本、非結(jié)構(gòu)化數(shù)據(jù)源和半結(jié)構(gòu)化數(shù)據(jù)源中提取的。

對(duì)這些原始數(shù)據(jù)進(jìn)行處理以提取信息。這涉及到實(shí)體、關(guān)系和屬性的提取,這些屬性是進(jìn)一步定義實(shí)體和關(guān)系的屬性。

如果數(shù)據(jù)已經(jīng)結(jié)構(gòu)化,則與步驟1不同,該數(shù)據(jù)將直接與來(lái)自第三方知識(shí)庫(kù)的信息融合。

在此之后,將在融合的知識(shí)和處理后的數(shù)據(jù)之上應(yīng)用各種自然語(yǔ)言處理技術(shù)。這包括共同引用解析、命名實(shí)體解析、實(shí)體消歧等等。

階段2:根據(jù)提取的事實(shí)制定三元組

以上步驟結(jié)束了知識(shí)庫(kù)信息的預(yù)處理。然后,進(jìn)行本體提取過(guò)程,對(duì)提取的實(shí)體及其各自本體下的關(guān)系進(jìn)行分類。

在進(jìn)行本體形式化的過(guò)程中,事實(shí)將被提煉并作為三元組存儲(chǔ)在知識(shí)庫(kù)中。

階段3:構(gòu)建具有新鏈接和置信度的知識(shí)圖譜

為了從知識(shí)庫(kù)中構(gòu)造知識(shí)圖譜,將在這些三元組上應(yīng)用統(tǒng)計(jì)關(guān)系學(xué)習(xí)(SRL)。

SRL過(guò)程計(jì)算每個(gè)事實(shí)(而不是整個(gè)領(lǐng)域)的置信度,以確定這些事實(shí)的真實(shí)程度。

在構(gòu)建知識(shí)圖譜時(shí),將使用置信度來(lái)識(shí)別缺失的鏈接,并形成新推斷的關(guān)系鏈接。


由于推理中的置信度包含在知識(shí)圖譜中,一旦構(gòu)建了圖,就可以基于置信度來(lái)決定事實(shí)在多大程度上被認(rèn)為是真實(shí)的。因此,Cayley生成的電影演員領(lǐng)域的示例知識(shí)圖譜如下所示。


隨后,這種知識(shí)圖譜可以用于信息檢索系統(tǒng)、聊天機(jī)器人、網(wǎng)絡(luò)應(yīng)用程序、知識(shí)管理系統(tǒng)等,以有效地提供對(duì)用戶查詢的響應(yīng)。


結(jié)論

到目前為止,我們已經(jīng)提供了整個(gè)知識(shí)圖譜管道如何工作的抽象解釋。使用這些階段中指定的技術(shù)將保證發(fā)現(xiàn)丟失的鏈接。盡管如此,在知識(shí)圖譜中仍然存在大量需要深度探索的內(nèi)容,中培IT學(xué)院機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算機(jī)圖像處理及知識(shí)圖譜應(yīng)用與核心技術(shù)實(shí)戰(zhàn)課程內(nèi)容包括如何從0到1完成知識(shí)圖譜構(gòu)建,從實(shí)戰(zhàn)的角度對(duì)深度學(xué)習(xí)技術(shù)進(jìn)行了全面的剖析,并結(jié)合實(shí)際案例分析和探討深度學(xué)習(xí)的應(yīng)用場(chǎng)景,給深度學(xué)習(xí)相關(guān)從業(yè)人員以指導(dǎo)和啟迪,推薦大家學(xué)習(xí)。


抽象解釋知識(shí)圖譜構(gòu)建管道的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
仪陇县| 昌图县| 山阳县| 建始县| 威信县| 蓝田县| 伽师县| 辽阳县| 泰兴市| 石棉县| 宜君县| 武川县| 滕州市| 施秉县| 大余县| 尉氏县| 灵寿县| 临澧县| 高安市| 金溪县| 庆安县| 常山县| 伊吾县| 武强县| 莒南县| 土默特左旗| 岢岚县| 通道| 呼伦贝尔市| 桓台县| 金坛市| 凤城市| 礼泉县| 沽源县| 常熟市| 盐山县| 哈密市| 上栗县| 怀远县| 防城港市| 葫芦岛市|