GNN論文周報|來自新加坡國立大學(xué)、牛津大學(xué)、Mila實驗室等機構(gòu)前沿論文研究

圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類專門針對圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,在社交網(wǎng)絡(luò)分析、知識圖譜等領(lǐng)域中取得了不錯的效果。近來,相關(guān)研究人員在GNN的可解釋性、架構(gòu)搜索、對比學(xué)習(xí)等方面做了很多探究。
本周精選了10篇GNN領(lǐng)域的優(yōu)秀論文,來自新加坡國立大學(xué)、牛津大學(xué)、Mila實驗室等機構(gòu)。
為了方便大家閱讀,只列出了論文標題、作者、ChatPaper綜述等信息,如果感興趣可點擊鏈接查看原文,PC端數(shù)據(jù)同步(收藏即可在PC端查看),每日新論文也可登錄小程序查看。
1.DECOR: Degree-Corrected Social Graph Refinement for Fake News Detection
作者:Jiaying Wu,Bryan Hooi
鏈接:https://www.aminer.cn/pub/64a39885d68f896efa31df2b/
ChatPaper綜述:這篇論文介紹了一種用于檢測虛假新聞的新的社會圖論方法,該方法利用度數(shù)糾正的分布式圖模型 (Degree-Corrected Stochastic Blockmodels)?,F(xiàn)有的虛假新聞檢測方法通常使用固定的社會圖結(jié)構(gòu),并假設(shè)這些結(jié)構(gòu)準確地反映了相關(guān)的社交互動。然而,在真實世界中,邊噪聲仍然是一個關(guān)鍵挑戰(zhàn),因為訓(xùn)練基于劣等結(jié)構(gòu)可能會嚴重限制 GNN 的表達能力。盡管先前的研究已經(jīng)進行了圖結(jié)構(gòu)學(xué)習(xí) (GSL),但這些方法通常使用節(jié)點特征來更新邊權(quán)重,這使得它們難以應(yīng)用于大型社會圖。在本文中,我們提出了一種新的社會圖論方法,用于檢測虛假新聞。我們發(fā)現(xiàn),新聞文章節(jié)點的度數(shù)表現(xiàn)出獨特的模式,這些模式可以指示新聞的真實性?;谶@一點,我們提出了 DECOR,一種新的分布式圖模型,用于虛假新聞檢測。具體而言,我們提出了一個輕量級的社會圖改進組件,它通過迭代更新邊權(quán)重,使用可學(xué)習(xí)的度數(shù)糾正掩碼,并與基于 GNN 的檢測器進行聯(lián)合優(yōu)化。通過在兩個真實的基準數(shù)據(jù)集上進行廣泛的實驗,我們證明了 DECOR 的有效性和效率。
2.PlanE: Representation Learning over Planar Graphs
作者:Radoslav Dimitrov,Zeyang Zhao,Ralph Abboud,?smail ?lkan Ceylan
鏈接:https://www.aminer.cn/pub/64a39889d68f896efa31ec77/
ChatPaper綜述:這篇論文介紹了 PlanE 框架,用于平面圖形表示學(xué)習(xí)。Graph 神經(jīng)網(wǎng)絡(luò)是一種常見的圖形表示學(xué)習(xí)模型,其思想是通過迭代計算輸入圖形的節(jié)點表示,使得學(xué)習(xí)到的圖形函數(shù)在圖形不相似時保持不變,從而學(xué)習(xí)到的表示也是圖形不變式。然而,這種模型學(xué)到的圖形不變式是不完全的,因為標準圖神經(jīng)網(wǎng)絡(luò)無法區(qū)分一些非相似圖形。這不足為奇,因為一般圖形的圖形相似性測試很困難。但是,對于像平面圖形這樣的特殊圖形類,存在高效的圖形相似性測試算法,因此這種情況有所不同。本文的目標是設(shè)計一種架構(gòu),能夠快速學(xué)習(xí)平面圖形的完整不變式。靈感來自 Hopcroft 和 Tarjan 提出的平面圖形相似性算法,本文提出了 PlanE 框架,用于平面表示學(xué)習(xí)。PlanE 包括能夠?qū)W習(xí)平面圖形完整不變的模型架構(gòu),并且在實踐中易于擴展。我們實證證明了這些模型架構(gòu)在知名的平面圖形基準集上取得了最先進的性能。
3.Temporal Graph Benchmark for Machine Learning on Temporal Graphs
作者:Shenyang Huang,Farimah Poursafaei,Jacob Danovitch,Matthias Fey,Weihua Hu,Emanuele Rossi,Jure Leskovec,Michael Bronstein,Guillaume Rabusseau,Reihaneh Rabbany
鏈接:https://www.aminer.cn/pub/64a39889d68f896efa31ebb2/
ChatPaper綜述:這篇論文介紹了一個名為 Temporal Graph Benchmark(TGB) 的基準測試集,這是一個具有挑戰(zhàn)性和多樣化的基準測試集,用于在時間圖模型中進行機器學(xué)習(xí)模型的逼真、可重復(fù)和穩(wěn)健的評估。TGB 基準測試集包括大規(guī)模時間圖數(shù)據(jù)集,持續(xù)時間長達數(shù)年,涵蓋了多個領(lǐng)域,如社交、貿(mào)易、交易和運輸網(wǎng)絡(luò)。對于兩個任務(wù),我們設(shè)計了基于實際應(yīng)用場景的評估協(xié)議。我們對每個數(shù)據(jù)集進行了全面基準測試,并發(fā)現(xiàn)不同數(shù)據(jù)集上的常見模型的性能差異很大。此外,在動態(tài)節(jié)點屬性預(yù)測任務(wù)中,我們表明簡單的方法往往比現(xiàn)有的時間圖模型表現(xiàn)更好。我們相信這些發(fā)現(xiàn)為時間圖模型的研究開啟了新的機會。最后,TGB 提供了自動化機器學(xué)習(xí)管道,包括數(shù)據(jù)加載、實驗設(shè)計和性能評估,可重復(fù)和易于訪問。TGB 將定期維護和更新,并歡迎社區(qū)反饋。TGB 數(shù)據(jù)集、數(shù)據(jù)加載器、示例代碼、評估設(shè)置和排行榜均公開可用,網(wǎng)址為 https://tgb.complexdatalab.com/。
4.InferTurbo: A Scalable System for Boosting Full-graph Inference of Graph Neural Network over Huge Graphs
作者:Dalong Zhang,Xianzheng Song,Zhiyang Hu,Yang Li,Miao Tao,Binbin Hu,Lin Wang,Zhiqiang Zhang,Jun Zhou
鏈接:https://www.aminer.cn/pub/64a39885d68f896efa31dfd5/
ChatPaper綜述:這篇論文描述了一種名為 InferTurbo 的可擴展系統(tǒng),用于加速大型圖形神經(jīng)網(wǎng)絡(luò)的推理任務(wù)。在工業(yè)應(yīng)用場景中,處理巨大圖形的挑戰(zhàn)包括全圖推理的可擴展性、基于采樣的加速策略導(dǎo)致的不一致性和嚴重的冗余計算問題。為了解決這些問題,作者提出了一種名為 GAS-like (Gather-Apply-Scatter) 的 schema,用于描述 GNN 推理的計算模式和數(shù)據(jù)流。該算法通過迭代方式表示 GNN 的運算,每個節(jié)點通過收集輸入消息更新狀態(tài)信息,并將更新的信息傳遞給其他節(jié)點。此外,作者還提出了一些策略,如 shadow-nodes 和 partial-gather,用于處理高度節(jié)點,以更好地平衡負載。使用 InferTurbo,可以分層進行 GNN 推理,無需采樣和冗余計算。實驗結(jié)果表明,該系統(tǒng)對包含高度節(jié)點的圖形推理任務(wù)具有魯棒性和高效性,與傳統(tǒng)的推理流程相比,可以在 2 小時內(nèi)完成對數(shù)十億節(jié)點和數(shù)百億邊的大型圖形的 GNN 推理任務(wù)。
5.Optimizing protein fitness using Gibbs sampling with Graph-based Smoothing
作者:Andrew Kirjner,Jason Yim,Raman Samusevich,Tommi Jaakkola,Regina Barzilay,Ila Fiete
鏈接:https://www.aminer.cn/pub/64a39885d68f896efa31e118/
ChatPaper綜述:這篇論文介紹了一種使用 Gibbs 采樣和基于圖的平滑技術(shù)的優(yōu)化蛋白質(zhì)適應(yīng)度的方法。該方法迭代應(yīng)用 Gibbs 采樣和梯度,以提出有利的突變,并使用基于圖的平滑技術(shù)來消除導(dǎo)致假陽性的噪聲梯度。該方法在訓(xùn)練集中發(fā)現(xiàn)了具有 8 個突變的高適應(yīng)度蛋白質(zhì),結(jié)果表明該方法是目前發(fā)現(xiàn)高適應(yīng)度蛋白質(zhì)的最佳方法之一。此外,我們還研究了 GFP 和 AAV 設(shè)計問題,并對結(jié)果進行了分析和基準測試。
6.Graphtester: Exploring Theoretical Boundaries of GNNs on Graph Datasets
作者:Eren Akbiyik,Florian Gr?tschla,Beni Egressy,Roger Wattenhofer
鏈接:https://www.aminer.cn/pub/64a2471bd68f896efaa52443/
ChatPaper綜述:這篇論文介紹了一種名為 Graphtester 的新工具,用于全面分析 GNN 在各種數(shù)據(jù)集、任務(wù)和評分標準下的理論基礎(chǔ)。作者使用了超過 40 個不同圖形數(shù)據(jù)集進行分析,并根據(jù)層數(shù)確定了各種 GNN 的性能上限。此外,作者還展示了 Graphtester 可以用于 Graph Transformers,并擴展了其應(yīng)用范圍。最后,作者展示了 Graphtester 生成的特征可以用于實際應(yīng)用程序,如 Graph Transformers,并提供了用于測試節(jié)點和邊特征,如位置編碼的人造數(shù)據(jù)集。
7.SaGess: Sampling Graph Denoising Diffusion Model for Scalable Graph Generation
作者:Stratis Limnios,Praveen Selvaraj,Mihai Cucuringu,Carsten Maple,Gesine Reinert,Andrew Elliott
鏈接:https://www.aminer.cn/pub/649e52c5d68f896efae48792/
ChatPaper綜述:這篇論文提出了一種名為 SaGess 的分布式降噪擴散方法,用于生成大規(guī)模真實世界網(wǎng)絡(luò)。該方法通過將擴散模型 (DiGress) 與通用分治框架相結(jié)合,能夠生成更大的初始網(wǎng)絡(luò)。算法通過從初始網(wǎng)絡(luò)中采樣覆蓋的子圖來訓(xùn)練 DiGress,然后使用 DiGress 生成的子圖來構(gòu)建合成網(wǎng)絡(luò)。我們比較了原始網(wǎng)絡(luò)和合成網(wǎng)絡(luò)的統(tǒng)計指標,并使用合成數(shù)據(jù)集訓(xùn)練了鏈接預(yù)測任務(wù)。在實驗中,SaGess 在 graph metrics 和 link prediction task 方面遠遠優(yōu)于大多數(shù)單點先進的圖形生成方法。
8.Graph Sampling-based Meta-Learning for Molecular Property Prediction
作者:Xiang Zhuang,Qiang Zhang,Bin Wu,Keyan Ding,Yin Fang,Huajun Chen
鏈接:https://www.aminer.cn/pub/6467125fd68f896efaf1440e/
ChatPaper綜述:這篇論文描述了一種用于分子屬性預(yù)測的圖采樣元學(xué)習(xí)框架。通常情況下,分子屬性只有少數(shù)樣本觀察,因此研究人員將其視為少樣本問題。然而,之前的工作忽略了一個重要的事實,即每個分子可以同時記錄多種屬性。為了充分利用分子和屬性之間的多對多關(guān)系,我們提出了一種名為 Graph Sampling-based Meta-learning(GS-Meta) 的框架,用于少樣本分子屬性預(yù)測。首先,我們構(gòu)建了一個分子屬性關(guān)系圖 (MPG),其中分子和屬性是節(jié)點,而屬性標簽決定它們之間的邊。為了利用 MPG 的拓撲信息,我們將元學(xué)習(xí) episode 重構(gòu)為 MPG 中的一個子圖,包含目標屬性節(jié)點、分子節(jié)點和輔助屬性節(jié)點。其次,由于子圖的形式不再是獨立的,因此我們提出了一種對比損失函數(shù)來安排子圖采樣過程,以考慮子圖的一致性和差異性。廣泛的實驗結(jié)果表明,GS-Meta 比最先進的方法在 ROC-AUC 指標上平均領(lǐng)先 5.71%-6.93%。此外,我們還證明了每個提出的模塊的有效性。
9.LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection
作者:Zijian Cai,Zhaoxuan Tan,Zhenyu Lei,Hongrui Wang,Zifeng Zhu,Qinghua Zheng,Minnan Luo
鏈接:https://www.aminer.cn/pub/64a2471bd68f896efaa523f1/
ChatPaper綜述:這篇論文提出了一種名為 LMBot 的新 bot 檢測框架,該框架將圖神經(jīng)網(wǎng)絡(luò)的知識傳遞給語言模型,以實現(xiàn) graph-less 部署,解決數(shù)據(jù)依賴性挑戰(zhàn)。LMBot 適用于 graph-based 和 graph-less 數(shù)據(jù)集,可以將用戶表示為文本序列,并使用語言模型進行領(lǐng)域適應(yīng)。對于 graph-based 數(shù)據(jù)集,LMBot 的輸出為 GNN 的輸入特征,使其優(yōu)化于 bot 檢測,并將知識回傳給語言模型。利用語言模型,LMBot 可以實現(xiàn)無圖結(jié)構(gòu)的推理,解決了數(shù)據(jù)依賴性和采樣偏差問題。對于無圖結(jié)構(gòu)的數(shù)據(jù)集,LMBot 可以替換為 MLP,同樣表現(xiàn)出強大的性能。實驗結(jié)果表明,LMBot 在四個 Twitter bot 檢測基準數(shù)據(jù)集上取得了最先進的性能,并且比基于圖的 Twitter bot 檢測方法更加魯棒、靈活和高效。
10.Graph Denoising Diffusion for Inverse Protein Folding
作者:Kai Yi,Bingxin Zhou,Yiqing Shen,Pietro Liò,Yu Guang Wang
鏈接:https://www.aminer.cn/pub/649e52c5d68f896efae48789/
ChatPaper綜述:這篇論文介紹了一種用于逆蛋白質(zhì)折疊的新的圖降噪擴散模型。逆蛋白質(zhì)折疊是一個復(fù)雜的任務(wù),因為它具有一對一映射的特性,即多個可能的氨基酸序列可以折疊成一個相同的蛋白質(zhì)骨架。該任務(wù)不僅要確定可行的氨基酸序列,還要代表潛在的多種解決方案。然而,現(xiàn)有的分類模型,如 Transformer based auto-regressive models,難以涵蓋多種可能的實施方案。相比之下,生成模型,如擴散概率模型,具有生成給定蛋白質(zhì)骨架的多樣性序列候選人的潛力。\n\n該論文提出了一種名為圖降噪擴散模型的新模型,用于逆蛋白質(zhì)折疊。該模型使用給定的蛋白質(zhì)骨架來指導(dǎo)相應(yīng)的氨基酸殘基類型的擴散過程。該模型推斷了氨基酸的聯(lián)合分布,條件取決于節(jié)點的物理化學(xué)性質(zhì)和局部環(huán)境。此外,在擴散向前過程中,我們使用氨基酸替換矩陣來編碼來自其空間和序列鄰居以及自身的生物學(xué)有意義的先前知識,從而減少了生成過程的采樣空間。該模型在序列恢復(fù)任務(wù)中取得了與一些流行的基準方法相比的最好成績,并且在給定蛋白質(zhì)骨架的情況下,展示了生成多樣性的氨基酸序列的潛力。