【SFFAI分享】晉嘉睿:一種高效的基于鄰居的異構(gòu)圖交互模型【附PPT與視頻資料】

本次分享主要關(guān)注異構(gòu)圖(或者叫異構(gòu)網(wǎng)絡(luò))在數(shù)據(jù)挖掘中的應(yīng)用,特別是異構(gòu)圖交互模型在推薦系統(tǒng)中的應(yīng)用。通過分析前期工作的兩類思路,一是基于基于圖中鄰居的信息,另一個(gè)是基于元路徑的信息;重點(diǎn)探討了交互信息在兩種思路中缺失。進(jìn)一步探討了近來工作的嘗試。最終介紹了NIRec,一種高效的基于鄰居的異構(gòu)圖交互模型。
關(guān)注微信公眾號(hào):人工智能前沿講習(xí)
對(duì)話框回復(fù)"SFFAI87"
入交流群/推薦論文下載/錄播視頻觀看/講者PPT下載
01
自我介紹
晉嘉睿,上海交通大學(xué)博士二年級(jí)博士生,導(dǎo)師為俞勇教授和張偉楠副教授。研究興趣是圖數(shù)據(jù)挖掘和信息檢索。

02
正文
異構(gòu)圖是一種包含多種結(jié)點(diǎn)或是多種類型的邊。在現(xiàn)實(shí)生活中,比如文章引用關(guān)系圖(包含文章和作者),電商圖(包含用戶和物品)等。所以,異構(gòu)圖上的數(shù)據(jù)挖掘在近年來得到了越來越多的關(guān)注。

在拿到一個(gè)異構(gòu)圖(比如圖1)的時(shí)候,我們首先需要思考的問題其實(shí)是我們需要挖掘什么樣的信息。值得注意的是,在異構(gòu)圖上,結(jié)點(diǎn)的類型是不是單一的,使用一種簡(jiǎn)單的統(tǒng)一的方法往往無法得到很多的結(jié)果。所以,我們首先需要在異構(gòu)圖上定義一種范式,這種范式,比較常用的便是元路徑,這是由于一種元路徑往往可以代表一種特殊的語義信息,比如表1表述的,元路徑UU(User-User)代表著用戶間的關(guān)系,對(duì)應(yīng)著社交推薦,UGU(User-Group-User)代表著相同組中的推薦[1]。

基于元路徑的定義,我們可以考慮在給定一個(gè)元路徑的情況下,我們可以采樣的一個(gè)路徑,這個(gè)路徑所路經(jīng)的結(jié)點(diǎn)類型是由元路徑所定義的,比如給定UGU的元路徑,那么用戶(User)結(jié)點(diǎn)下一個(gè)結(jié)點(diǎn)一定是組(Group)結(jié)點(diǎn)。那么這個(gè)路徑可以表示為一種一個(gè)語句,那么便可以使用自然語言的處理的方法進(jìn)行處理,比如給定一個(gè)詞的情況下預(yù)測(cè)下一個(gè)詞的概率。

metapath2vec [2]中便是在這個(gè)思路上的探索,通過學(xué)習(xí)預(yù)測(cè)下一個(gè)詞更新結(jié)點(diǎn)的表征學(xué)習(xí)。值得注意的是,在這種方法中,并沒有將不同類型結(jié)點(diǎn)的信息在路徑中分開。這種方法也可以被稱為基于元路徑的方法。在學(xué)習(xí)到結(jié)點(diǎn)的表征信息之后,便可以通過不同結(jié)點(diǎn)的表征,而這種表征便可以表示為用戶或是物品的特征來幫組推薦系統(tǒng)做出正確的推薦。當(dāng)然,我們也可以考慮另一個(gè)思路,便是把異構(gòu)信息人為的變成幾組同構(gòu)的信息,這樣便可以用同構(gòu)圖的方法進(jìn)行處理,比如圖3所示,對(duì)于所要預(yù)測(cè)的目標(biāo)結(jié)點(diǎn),鄰居結(jié)點(diǎn)往往包含不同類型的結(jié)點(diǎn),首先將不同類型的結(jié)點(diǎn)按照類型進(jìn)行分類,對(duì)于同一類的結(jié)點(diǎn)先聚合,聚合的方法一般是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)或是圖注意力網(wǎng)絡(luò)或是圖神經(jīng)網(wǎng)絡(luò)[3,4]。在同一類型的結(jié)點(diǎn)信息聚合之后,而對(duì)于不同類型的結(jié)點(diǎn),常見的聚合方法包括LeakyReLU和圖注意力網(wǎng)絡(luò)。

上述方法往往是通過采樣和聚合的方法得出最終結(jié)合,而這種方法往往會(huì)忽視交互信息。那么接下來便需要解釋什么樣的信息是異構(gòu)信息,比如圖4中,中國(guó)春節(jié)的時(shí)候,在北京的女性往往往往會(huì)購(gòu)物。為了抓住這種特征,其實(shí)需要建模三個(gè)關(guān)鍵詞的“且”操作,也就是說,中國(guó)春節(jié),北京,女性,三個(gè)詞中,任意換其中一個(gè)關(guān)鍵詞往往會(huì)導(dǎo)致最終結(jié)果的不同。

那么在圖的結(jié)構(gòu)中,這類特征組合或者說是“且”操作,便是鄰居間的“且”關(guān)系,如圖5中,La La Land和Romance的組合便相當(dāng)于之前的中國(guó)春節(jié),北京和女性的組合。任意換個(gè)詞,比如La La Land和Fiction的組合是噪聲應(yīng)該去除 [5]。

那么如何在圖結(jié)構(gòu)數(shù)據(jù)中,建模這些特征組合呢。在NIRec [6]中,首先按照元路徑采樣路徑,這里的元路徑采樣和之前的方法不一樣的是,之前的方法的路徑一定是從源節(jié)點(diǎn)到目標(biāo)結(jié)點(diǎn)。而在這種方法中,我們只定義了路徑的起點(diǎn),而沒有限制路徑的終點(diǎn)。

在采樣之后,我們?cè)O(shè)計(jì)了交互模型和聚合模型,在交互模型中,我們提出了一種全新的卷積操作,這種卷積操作來源于信號(hào)處理,包括反轉(zhuǎn),交互,平移。而在信號(hào)處理中,卷積操作可以自然被快速傅里葉變換進(jìn)行加速。

如圖7所示,卷積操作的結(jié)果包含了不同類型結(jié)點(diǎn)的交互信息(比如用戶和用戶的交互信息),這類交互的結(jié)果我們稱為相似性,也包含了相同類型結(jié)點(diǎn)的交互信息(比如用戶和物品之間的交互信息)。我們?cè)谒膫€(gè)不同的數(shù)據(jù)集中進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果如下表所示。

當(dāng)然,除了上面所提到的異構(gòu)圖在推薦系統(tǒng)的應(yīng)用,其實(shí)異構(gòu)圖還在其他很多地方都有應(yīng)用,比如在安卓手機(jī)中,我們可以將應(yīng)用App看成結(jié)點(diǎn),而將App的調(diào)用的關(guān)系通過元路徑進(jìn)行定義。

那么對(duì)于危險(xiǎn)軟件的檢測(cè)問題便可以定義為異構(gòu)圖上的結(jié)點(diǎn)分類問題。在在可預(yù)見的未來,如何有效的利用異構(gòu)圖中的異構(gòu)信息,以及如何更加有效的建立異構(gòu)圖,將是推薦系統(tǒng)和圖網(wǎng)絡(luò)中研究的重點(diǎn)和熱點(diǎn)
03
參考文獻(xiàn)
[1] Chuan Shi, et al. Semantic Path Based PersonalizedRecommendation on Weighted Heterogeneous Information Network. CIKM, 2015.
[2] Yuxiao Dong, et al. metapath2vec: ScalableRepresentation Learning for Heterogeneous Networks. KDD, 2017.
[3] Chuxu Zhang, et al. Heterogeneous GraphNeural Network. KDD, 2019.
[4] Xiao Wang, et al. Heterogeneous GraphAttention Network. WWW, 2019.
[5] Yanru Qu, et al. An End-to-EndNeighborhood-based Interaction Model for Knowledge-enhanced Recommendation. KDDWorkshop (Best Paper), 2019.
[6] Jiarui Jin, et al. An EfficientNeighborhood-based Interaction Model for Recommendation on Heterogeneous Graph.KDD, 2020.
[7] Shifu Hou, et al. HinDroid: An IntelligentAndroid Malware Detection System Based on Structured Heterogeneous InformationNetwork. KDD (Best Student Paper), 2017.
