網(wǎng)絡(luò)(嵌入)表示學(xué)習(xí)和知識(shí)圖譜表示學(xué)習(xí)
網(wǎng)絡(luò)(嵌入)表示學(xué)習(xí)和知識(shí)圖譜表示學(xué)習(xí)
網(wǎng)絡(luò)表示學(xué)習(xí)(網(wǎng)絡(luò)嵌入)
網(wǎng)絡(luò)表示學(xué)習(xí)沒(méi)有關(guān)系,更注重在嵌入空間保留(拓?fù)?結(jié)構(gòu)信息,注重節(jié)點(diǎn)表示/建模,之所以要將原始問(wèn)題轉(zhuǎn)化為圖網(wǎng)絡(luò)也是因?yàn)?,從網(wǎng)絡(luò)中可以發(fā)現(xiàn)傳統(tǒng)方法發(fā)現(xiàn)不到的結(jié)構(gòu)信息;
網(wǎng)絡(luò)表示學(xué)習(xí)強(qiáng)調(diào)的是節(jié)點(diǎn)的表示,這為下游任務(wù):節(jié)點(diǎn)分類(lèi),鏈接預(yù)測(cè),網(wǎng)絡(luò)重構(gòu),網(wǎng)絡(luò)可視化等提供了方便。
并不是表示學(xué)習(xí)在圖數(shù)據(jù)中不強(qiáng)調(diào)關(guān)系的重要性,而是因?yàn)殛P(guān)系沒(méi)有那么清楚和直白,關(guān)系是模糊不清的,不可能像是在知識(shí)圖譜中那樣很明確。所以沒(méi)辦法對(duì)關(guān)系進(jìn)行建模,干脆就放棄建模。網(wǎng)絡(luò)表示學(xué)習(xí)中沒(méi)有明顯的結(jié)點(diǎn)之間的關(guān)系,網(wǎng)絡(luò)中各個(gè)結(jié)點(diǎn)相互連接,所有結(jié)點(diǎn)是一視同仁,但我們并不知道他們之間的具體關(guān)系是什么,這就需要一個(gè)有效的方法去挖掘。(比如社交網(wǎng)絡(luò)這個(gè)網(wǎng)絡(luò)圖,A、B和我之間都有連線(xiàn),但直觀上看不出來(lái)我和A、B誰(shuí)的關(guān)系更好,需要利用其它信息去發(fā)現(xiàn))
網(wǎng)絡(luò)表示大多是用于單關(guān)系網(wǎng)絡(luò)的,比如社交網(wǎng)絡(luò),只有朋友關(guān)系這一種;
網(wǎng)絡(luò)表示學(xué)習(xí)算法:DeepWalk,Node2vec,LINE……
DeepWalk是受word2vec的啟發(fā),通過(guò)隨機(jī)游走得到結(jié)點(diǎn)序列,然后用word2vec的方法最大化結(jié)點(diǎn)共同出現(xiàn)的概率。
Node2vec在DeepWalk的基礎(chǔ)上考慮了隨機(jī)游走的廣度和深度兩個(gè)方面,可以根據(jù)情況有不同的側(cè)重點(diǎn)。
LINE,保留節(jié)點(diǎn)的二階相似度。網(wǎng)絡(luò)表示學(xué)習(xí)通常有兩個(gè)基本目標(biāo):
在低維空間中學(xué)習(xí)到的表征可以重構(gòu)出原有網(wǎng)絡(luò)結(jié)構(gòu)。
學(xué)習(xí)到的表征可以有效地支持網(wǎng)絡(luò)推斷。
網(wǎng)絡(luò)表示學(xué)習(xí)通常包括三種:
基于矩陣分解的模型,比如SVD;
基于隨機(jī)游走的模型,比如DeepWalk;
基于深度神經(jīng)網(wǎng)絡(luò)的模型,就更多了,CNN、RNN都可以用。
此外還有同質(zhì)網(wǎng)絡(luò)、異質(zhì)網(wǎng)絡(luò)的區(qū)分,還有屬性網(wǎng)絡(luò)、融合伴隨信息的網(wǎng)絡(luò)等。
網(wǎng)絡(luò)表示學(xué)習(xí)分為:異質(zhì)信息網(wǎng)絡(luò)和同質(zhì)信息網(wǎng)絡(luò)(但是不能完全區(qū)分開(kāi)),而同質(zhì)信息網(wǎng)絡(luò)可看作異質(zhì)信息網(wǎng)絡(luò)的特例。
知識(shí)圖譜表示學(xué)習(xí)
知識(shí)圖譜表示學(xué)習(xí)在保留結(jié)構(gòu)信息的基礎(chǔ)上強(qiáng)調(diào)關(guān)系和頭尾關(guān)系;
知識(shí)圖譜表示學(xué)習(xí)強(qiáng)調(diào)的是節(jié)點(diǎn)和關(guān)系的表示,節(jié)點(diǎn)和關(guān)系同樣重要;
知識(shí)圖譜表示學(xué)習(xí)中往往指明了關(guān)系,比如水果和獼猴桃之間是所屬關(guān)系。知識(shí)圖譜表示學(xué)習(xí)中常常提到的一個(gè)概念就是三元組(頭實(shí)體,關(guān)系,尾實(shí)體)
知識(shí)圖譜表示中的關(guān)系不再是單關(guān)系,而是多種關(guān)系,之前的方法不適用,出現(xiàn)了一些知識(shí)圖譜表示學(xué)習(xí)的方法;
知識(shí)圖譜的表示前提需要一個(gè)知識(shí)圖譜,現(xiàn)在很多研究都用到了開(kāi)源的知識(shí)圖譜,也有不少人在自己搭建相關(guān)領(lǐng)域的知識(shí)圖譜。因?yàn)橹R(shí)圖譜不像圖網(wǎng)絡(luò)那樣只需要有結(jié)點(diǎn)和邊就可以了,知識(shí)圖譜需要有實(shí)體和關(guān)系,那么實(shí)體和關(guān)系又從何而來(lái)?這就要用到信息抽取。所以知識(shí)圖譜要用到實(shí)際中還是需要做很多工作的。
知識(shí)圖譜表示算法:trans系列的算法,什么是TransE,TransR,TransH,很多很多,它們都是將圖譜表示成大量的三元組,通過(guò)這個(gè)三元組去刻畫(huà)實(shí)體和關(guān)系的向量表示。
區(qū)別
知識(shí)圖譜表示學(xué)習(xí)強(qiáng)調(diào)關(guān)系,網(wǎng)絡(luò)表示學(xué)習(xí)不考慮關(guān)系;
從知識(shí)推理的角度來(lái)說(shuō),異質(zhì)信息網(wǎng)絡(luò)=知識(shí)圖譜。從網(wǎng)絡(luò)的構(gòu)建和布局等角度來(lái)說(shuō),異質(zhì)信息網(wǎng)絡(luò)!=知識(shí)圖譜。
聯(lián)系
兩者都是表示學(xué)習(xí),目標(biāo)都是將實(shí)體或者關(guān)系或者結(jié)點(diǎn)表示成一個(gè)向量,用這個(gè)向量去做分類(lèi)、聚類(lèi)等;
知識(shí)圖譜表示學(xué)習(xí)是特殊的網(wǎng)絡(luò)表示學(xué)習(xí);網(wǎng)絡(luò)表示學(xué)習(xí)是更一般的知識(shí)圖譜表示學(xué)習(xí);
兩種方法都可以統(tǒng)一在encoder-decoder的框架下,不過(guò)由于隱空間下的距離度量和設(shè)計(jì)的loss不同,模型有所變化;
兩種方法的模型可以在相關(guān)任務(wù)通用,但算法性能差別較大;
異質(zhì)信息網(wǎng)絡(luò)和知識(shí)圖譜都可以用圖的形式進(jìn)行表示;
如果還不明白,可以讀一個(gè)論文:斯坦福17年的綜述Methods and Applications和他們?cè)趙ww18上組織的相關(guān)tutorial。
知識(shí)圖譜的關(guān)系推理的三種方法
統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法(SRL):如馬爾科夫邏輯網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò),但這類(lèi)方發(fā)需要設(shè)計(jì)相應(yīng)的規(guī)則,因此沒(méi)有很好的擴(kuò)展性和泛化性;
嵌入式表示的方法:旨在將實(shí)體和關(guān)系映射為空間中的向量,通過(guò)空間中向量的運(yùn)算來(lái)進(jìn)行推理(如TransE),該方法取得了較好的準(zhǔn)確率,但分布式表示的解釋性不強(qiáng),另外,較難實(shí)現(xiàn)并行計(jì)算;
基于關(guān)系路徑特征的隨機(jī)游走模型:該方法可以進(jìn)行并行計(jì)算,具有較好的執(zhí)行效率,但準(zhǔn)確率與召回率相比嵌入式表示學(xué)習(xí)的方法存在劣勢(shì)。
本文的想法是:是否可以設(shè)計(jì)算法同時(shí)實(shí)現(xiàn)隨機(jī)游走模型的執(zhí)行效率以及保留嵌入式表示學(xué)習(xí)方法的準(zhǔn)確率?
論文:ISGIR 2016,Hierarchical Random Walk Inference in Knowledge
知識(shí)圖譜表示學(xué)習(xí),將知識(shí)圖譜映射到低維稠密向量空間
論文:TransG : A Generative Model for Knowledge Graph Embedding
Word Representation
one-hot representation
長(zhǎng)度為詞典長(zhǎng)度,每個(gè)詞在詞典中的位置置1,其余置0
Curse of Dimension, 不適合太大的字典
互相正交,難以表示詞語(yǔ)之間的相似性詞向量(distributed representation)
詞向量:http://licstar.net/archives/328(學(xué)習(xí),很系統(tǒng))
稠密、實(shí)值、低維的向量
便于Deep Learning
相似度用距離表示
word2vec
king-queen = man-woman
參考:https://blog.csdn.net/zlasd/article/details/69258491
這篇文章還有Trans系列、知識(shí)融合總結(jié)(值得細(xì)看)
6.論文筆記和源碼復(fù)現(xiàn)
[Representation Learning of Knowledge Graphs with Entity Descriptions]
來(lái)源鏈接:https://www.dianjilingqu.com/440573.html