大神論文解讀:無限層數(shù)GNN之PPNP
這位大神一直在搞科研,學姐逛知乎的時候看到了她的動態(tài),就厚臉皮的求了一篇論文解讀來給大家!學姐一個人是做不到一周肝一篇論文解讀的,嚶嚶嚶~

廢話不多說,快認真起來!
大神說她今天再次get到了PPNP模型的美妙,想和大家分享一下~
所以本文會盡量寫的簡潔一些,不是原文的逐句翻譯。更想給大家傳遞的是PPNP的帶給我們的靈感,從更加宏觀和開闊的視角去看待GNN。

大家可以關注一下本文后兩部分,給大家分享了:PPNP是如何打破常規(guī)GNN進行設計的,以及怎么優(yōu)雅的使用PPNP。

論文標題:PREDICT THEN PROPAGATE: GRAPH NEURAL NETWORKS MEET PERSONALIZED PAGERANK
作者:Johannes Klicpera, Aleksandar Bojchevski & Stephan Gu ?nnemann
論文地址:https://arxiv.org/pdf/1810.05997.pdf
代碼:https://github.com/klicperajo/ppnp
一. PPNP是啥?
1. PPNP 要解決怎樣的問題
傳統(tǒng)的GCN長這樣:

PPNP想要diss和解決GCN存在的兩個問題:
1)過平滑問題
GCN用的是簡單的鄰居平均的聚合策略,那么疊加多層之后:節(jié)點的表示就喪失了它的局部信息,表示趨于一致,即過平滑現(xiàn)象。
2)長距離依賴問題
每一層都要進行一次節(jié)點特征的變換(公式中[XW]部分),即每一層我們都要學習一個全新的權重矩陣。
這樣做的影響就是:如果我們想要獲得更遠距離的鄰居信息,就要通過疊加深層的GCN,那就意味著需要學習大量的參數(shù)。
2. PPNP的源起(從個性化Pagerank到GCN的消息傳遞)
PPNP的傳播策略是從個性化Pagerank衍生而來的,作者利用圖卷積網絡(GCN)與PageRank的關系,提出了一種改進的基于個性化PageRank的傳播方案。
之前我們提到了GCN的過平滑問題,有論文證明:節(jié)點的信息會以隨機游走的方式向周圍節(jié)點傳遞。
假設消息傳遞了無窮層,那么這個隨機游走分布將會收斂于一個穩(wěn)定值,即,獲得的信息過分的global了,完全獨立于根節(jié)點本身的信息。
personalized PageRank(PPR)
PPR的一大亮點就是能使用節(jié)點自身的特征信息,把根節(jié)點自身的信息顯式的加進來了:

其中,ix為根節(jié)點x的指示向量,它是一個one-hot向量。傳送概率α∈(0,1),能夠控制根節(jié)點x自身的控制力。通過解上式,能夠得到節(jié)點x的向量表示:


矩陣中的元素[yx]就代表信息傳播過程中節(jié)點x對節(jié)點y產生的影響。
3. PPNP模型(從消息傳遞過程到深度GCN模型)
PPNP的消息傳遞
PPNP模型就是把上面的PPR矩陣搬過來,讓節(jié)點信息H在PPR 矩陣上的傳播,外面加了個softmax非線性變換:

這個傳播公式和GCN的本質差別就在于使用PPR矩陣代替了原來的鄰接矩陣。這個替換就很妙,成功的克服了對鄰居節(jié)點做平均的聚合過程的局限性。
PPNP的架構設計
傳播過程確定了,我們再來看看它是怎樣設計PPNP的架構的。
回憶一下以往的圖神經網絡兩個重要步驟:
1)特征變換:H=XW;
2)沿著圖結構進行消息傳遞:AH。
每疊加一層GNN都要重復以上兩步,這兩步生生世世不分離,整個過程就是:

即每層GCN要學習一個新的權重矩陣W,這也是我們上面說到的GCN無法捕獲長距離依賴的原因。
PPNP就不一樣啦,它僅僅通過一個MLP完成了整個模型的特征變換(這個MLP包含了所有要學習的參數(shù)):

即先通過一個特征提取器獲得了一波節(jié)點的信息,再把提取后的特征送到MPNN中,隨便你再傳播幾層,傳播多遠,都不會再引入額外的可學習參數(shù)了。這就是 PPNP 的另一大亮點:解耦了特征變換和消息傳遞過程,神經網絡的深度完全獨立于傳播算法。保證了我們獲得更遠距離信息而不會過度參數(shù)化。
4. APPNP 模型(PPNP的巧妙近似)
由于上面的傳播過程有一個矩陣求逆的過程,這在實際的計算中花銷非常大,作者又給出了一個PPNP模型的近似,APPNP:

二. PPNP的優(yōu)勢
1.PPNP怎么打破常規(guī)的?
PPNP給我們一個全新的思路,可以從更加宏觀的角度去看待GNN模型:AXW表達的就是節(jié)點特征能夠在圖結構上進行信息傳播。
至于圖結構信息怎樣表達,以及消息傳遞與特征變換以什么形式結合,都不再局限于唯一的方式了。
PPNP利用PPR矩陣代替了傳統(tǒng)的鄰接矩陣形式,GNN中特征提取過程也可以完全獨立于消息傳遞。
2. PPNP的優(yōu)勢是啥?
PPNP模型中只有MLP的參數(shù)是可訓練的,不是每一層都有一個新的W了,參數(shù)量少了,訓練速度快呀。
PPNP 的解耦結構,允許我們用一層MLP捕獲無限遠的鄰居信息。
PPR 矩陣的引入緩解了過平滑問題,顯式的考慮了節(jié)點自身的信息。
模型具有可擴展性。
三. 如何優(yōu)雅的使用PPNP?
1.用更優(yōu)秀的結構信息代替鄰接矩陣
鄰接矩陣不是我們傳播信息的唯一途徑,可以盡情的花式替換,既然PPR矩陣的作用是緩解過平滑,那么其它的矩陣也能發(fā)揮其自身的優(yōu)勢才能。
例如:發(fā)表在ICLR 2021 的論文 SIMPLE SPECTRAL GRAPH CONVOLUTION就使用了Markov Diffusion Kernel 代替了鄰接矩陣,并重新設置了更簡單的特征提取器。
2. 用更好的特征提取器代替MLP
PPNP解耦都過程給了我們機會用任何與任務相關的NN代替MLP,自由的設計自己的特征提取過程。
文章來源:https://zhuanlan.zhihu.com/p/417615165
原作者:圖子 GNN/NLP/餓霸/北郵博士在讀 閱讀原文直達主頁
免責聲明:所載內容來源互聯(lián)網(已獲授權),僅供參考。轉載稿件版權歸原作者和機構所有,如有侵權,請聯(lián)系我們刪除。
