手機站首頁散文詩歌雜文隨筆日記小小說

散文網 » 科技 »學習 » 大神論文解讀：無限層數(shù)GNN之PPNP

大神論文解讀：無限層數(shù)GNN之PPNP

2021-11-16 18:46 作者:深度之眼官方賬號 0人讀過 | 我要投稿

這位大神一直在搞科研，學姐逛知乎的時候看到了她的動態(tài)，就厚臉皮的求了一篇論文解讀來給大家！學姐一個人是做不到一周肝一篇論文解讀的，嚶嚶嚶~

廢話不多說，快認真起來！

大神說她今天再次get到了PPNP模型的美妙，想和大家分享一下～

所以本文會盡量寫的簡潔一些，不是原文的逐句翻譯。更想給大家傳遞的是PPNP的帶給我們的靈感，從更加宏觀和開闊的視角去看待GNN。

大家可以關注一下本文后兩部分，給大家分享了：PPNP是如何打破常規(guī)GNN進行設計的，以及怎么優(yōu)雅的使用PPNP。

論文標題：PREDICT THEN PROPAGATE: GRAPH NEURAL NETWORKS MEET PERSONALIZED PAGERANK
作者：Johannes Klicpera, Aleksandar Bojchevski & Stephan Gu ?nnemann
論文地址：https://arxiv.org/pdf/1810.05997.pdf
代碼：https://github.com/klicperajo/ppnp

一. PPNP是啥？

1. PPNP 要解決怎樣的問題

傳統(tǒng)的GCN長這樣：

PPNP想要diss和解決GCN存在的兩個問題：

1）過平滑問題

GCN用的是簡單的鄰居平均的聚合策略，那么疊加多層之后：節(jié)點的表示就喪失了它的局部信息，表示趨于一致，即過平滑現(xiàn)象。

2）長距離依賴問題

每一層都要進行一次節(jié)點特征的變換（公式中[XW]部分），即每一層我們都要學習一個全新的權重矩陣。

這樣做的影響就是：如果我們想要獲得更遠距離的鄰居信息，就要通過疊加深層的GCN，那就意味著需要學習大量的參數(shù)。

2. PPNP的源起（從個性化Pagerank到GCN的消息傳遞）

PPNP的傳播策略是從個性化Pagerank衍生而來的，作者利用圖卷積網絡(GCN)與PageRank的關系，提出了一種改進的基于個性化PageRank的傳播方案。

之前我們提到了GCN的過平滑問題，有論文證明：節(jié)點的信息會以隨機游走的方式向周圍節(jié)點傳遞。

假設消息傳遞了無窮層，那么這個隨機游走分布將會收斂于一個穩(wěn)定值，即，獲得的信息過分的global了，完全獨立于根節(jié)點本身的信息。

personalized PageRank（PPR）

PPR的一大亮點就是能使用節(jié)點自身的特征信息，把根節(jié)點自身的信息顯式的加進來了：

其中，ix為根節(jié)點x的指示向量，它是一個one-hot向量。傳送概率α∈(0,1)，能夠控制根節(jié)點x自身的控制力。通過解上式，能夠得到節(jié)點x的向量表示：

矩陣中的元素[yx]就代表信息傳播過程中節(jié)點x對節(jié)點y產生的影響。

3. PPNP模型（從消息傳遞過程到深度GCN模型）

PPNP的消息傳遞

PPNP模型就是把上面的PPR矩陣搬過來，讓節(jié)點信息H在PPR 矩陣上的傳播，外面加了個softmax非線性變換：

這個傳播公式和GCN的本質差別就在于使用PPR矩陣代替了原來的鄰接矩陣。這個替換就很妙，成功的克服了對鄰居節(jié)點做平均的聚合過程的局限性。

PPNP的架構設計

傳播過程確定了，我們再來看看它是怎樣設計PPNP的架構的。

回憶一下以往的圖神經網絡兩個重要步驟：

1）特征變換：H=XW；

2）沿著圖結構進行消息傳遞：AH。

每疊加一層GNN都要重復以上兩步，這兩步生生世世不分離，整個過程就是：

即每層GCN要學習一個新的權重矩陣W，這也是我們上面說到的GCN無法捕獲長距離依賴的原因。

PPNP就不一樣啦，它僅僅通過一個MLP完成了整個模型的特征變換（這個MLP包含了所有要學習的參數(shù)）：

即先通過一個特征提取器獲得了一波節(jié)點的信息，再把提取后的特征送到MPNN中，隨便你再傳播幾層，傳播多遠，都不會再引入額外的可學習參數(shù)了。這就是 PPNP 的另一大亮點：解耦了特征變換和消息傳遞過程，神經網絡的深度完全獨立于傳播算法。保證了我們獲得更遠距離信息而不會過度參數(shù)化。

4. APPNP 模型（PPNP的巧妙近似）

由于上面的傳播過程有一個矩陣求逆的過程，這在實際的計算中花銷非常大，作者又給出了一個PPNP模型的近似，APPNP：

二. PPNP的優(yōu)勢

1.PPNP怎么打破常規(guī)的？

PPNP給我們一個全新的思路，可以從更加宏觀的角度去看待GNN模型：AXW表達的就是節(jié)點特征能夠在圖結構上進行信息傳播。

至于圖結構信息怎樣表達，以及消息傳遞與特征變換以什么形式結合，都不再局限于唯一的方式了。

PPNP利用PPR矩陣代替了傳統(tǒng)的鄰接矩陣形式，GNN中特征提取過程也可以完全獨立于消息傳遞。

2. PPNP的優(yōu)勢是啥？

PPNP模型中只有MLP的參數(shù)是可訓練的，不是每一層都有一個新的W了，參數(shù)量少了，訓練速度快呀。

PPNP 的解耦結構，允許我們用一層MLP捕獲無限遠的鄰居信息。

PPR 矩陣的引入緩解了過平滑問題，顯式的考慮了節(jié)點自身的信息。

模型具有可擴展性。

三. 如何優(yōu)雅的使用PPNP？

1.用更優(yōu)秀的結構信息代替鄰接矩陣

鄰接矩陣不是我們傳播信息的唯一途徑，可以盡情的花式替換，既然PPR矩陣的作用是緩解過平滑，那么其它的矩陣也能發(fā)揮其自身的優(yōu)勢才能。

例如：發(fā)表在ICLR 2021 的論文 SIMPLE SPECTRAL GRAPH CONVOLUTION就使用了Markov Diffusion Kernel 代替了鄰接矩陣，并重新設置了更簡單的特征提取器。

2. 用更好的特征提取器代替MLP

PPNP解耦都過程給了我們機會用任何與任務相關的NN代替MLP，自由的設計自己的特征提取過程。

文章來源：https://zhuanlan.zhihu.com/p/417615165

原作者：圖子 GNN/NLP/餓霸/北郵博士在讀閱讀原文直達主頁

免責聲明：所載內容來源互聯(lián)網（已獲授權），僅供參考。轉載稿件版權歸原作者和機構所有，如有侵權，請聯(lián)系我們刪除。

標簽：