最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

AAAI 2023 best paper DropMessage:統(tǒng)一的圖神經(jīng)網(wǎng)絡(luò)隨機(jī)Dropping方法

2023-06-12 09:04 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站?機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問哦?

作者 |?呂傳昊
單位 | 東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室

論文題目:DropMessage: Unifying Random Dropping for Graph Neural Networks

論文機(jī)構(gòu):浙江大學(xué)、Fin Volution Group(信也科技集團(tuán))、復(fù)旦大學(xué)

論文作者:?Taoran Fang,?Zhiqing Xiao,?Chunping Wang,?Jiarong Xu?,?Xuan Yang?,?Yang Yang

論文鏈接: https://arxiv.org/abs/2204.10037

主要貢獻(xiàn)

文本提出了一個(gè)全新的隨機(jī)Dropping方法,該方法在消息傳遞的過(guò)程中直接對(duì)被傳遞的消息進(jìn)行dropping操作,統(tǒng)一了圖神經(jīng)網(wǎng)絡(luò)的隨機(jī)dropping架構(gòu)。

第一章 摘要

圖神經(jīng)網(wǎng)絡(luò)是圖表示學(xué)習(xí)的重要工具。但盡管圖神經(jīng)網(wǎng)絡(luò)的研究發(fā)展迅速,我們依然面臨著很多挑戰(zhàn),例如:過(guò)擬合、過(guò)平滑和低魯棒性這些問題。以前的工作表明這些問題可以通過(guò)隨機(jī)droppping方法得到緩解,即通過(guò)隨機(jī)遮掩掉部分輸入來(lái)將增強(qiáng)數(shù)據(jù)喂給模型。然而,在圖神經(jīng)網(wǎng)絡(luò)上應(yīng)用隨機(jī)dropping方法仍有很多問題待被解決。首先,考慮到不同數(shù)據(jù)集和模型的差異,找到一種適用于所有情況的通用方法是很困難的。其次,在圖神經(jīng)網(wǎng)絡(luò)中引入增強(qiáng)數(shù)據(jù)會(huì)導(dǎo)致參數(shù)覆蓋不完全和訓(xùn)練過(guò)程不穩(wěn)定的現(xiàn)象。第三,現(xiàn)今沒有在理論層面上分析隨機(jī)dropping方法在圖神經(jīng)網(wǎng)絡(luò)上的有效性。

在本文,我們提出了一個(gè)全新的隨機(jī)droppping方法——DropMessage,該方法在消息傳遞過(guò)程中直接對(duì)被傳遞的消息進(jìn)行dropping操作。更重要的是,我們發(fā)現(xiàn)DropMessage為大多數(shù)現(xiàn)有的隨機(jī)dropping方法提供了一個(gè)統(tǒng)一的框架,并在此基礎(chǔ)上我們還對(duì)其有效性進(jìn)行了理論分析,以進(jìn)一步闡述了DropMessage的優(yōu)越性:它通過(guò)減小樣本方差來(lái)穩(wěn)定訓(xùn)練過(guò)程;從信息論的角度來(lái)看,它保持了信息的多樣性,這使其成為其他方法的理論上限。為了評(píng)估所提出的DropMessage方法,我們?cè)谖鍌€(gè)公共數(shù)據(jù)集和兩個(gè)工業(yè)數(shù)據(jù)集上進(jìn)行了多個(gè)任務(wù)的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:DropMessage有效性且泛化性強(qiáng),能夠顯著緩解上述提到的問題。

第二章 簡(jiǎn)介及背景

圖在現(xiàn)實(shí)世界里面無(wú)處不在,被用于在許多領(lǐng)域中呈現(xiàn)各種事物之間的復(fù)雜關(guān)系,圖神經(jīng)網(wǎng)絡(luò)更是研究圖表示學(xué)習(xí)的重要工具。圖神經(jīng)網(wǎng)絡(luò)使用信息傳遞的方法并可以應(yīng)用到大量的下游任務(wù)中。其中消息傳遞就是圖神經(jīng)網(wǎng)絡(luò)在每個(gè)卷積層中的各個(gè)節(jié)點(diǎn)都會(huì)聚合其鄰居信息的行為。

但是圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練面臨著很多挑戰(zhàn)。因?yàn)榕c其他數(shù)據(jù)形式相比,為圖數(shù)據(jù)收集標(biāo)簽是昂貴的并且會(huì)有必然的偏差,這限制了圖神經(jīng)網(wǎng)絡(luò)的泛化能力。此外,由于遞歸地聚合來(lái)自其鄰居的信息,圖神經(jīng)網(wǎng)絡(luò)中不同節(jié)點(diǎn)的表示往往變得越來(lái)越相似。

使用隨機(jī)dropping方法可以緩解上述問題,但是摘要中所提到的三大問題依然存在著。在本文,我們提出的全新的隨機(jī)Dropping方法DropMessage可以有效解決這些問題。

第三章 數(shù)學(xué)符號(hào)和預(yù)備知識(shí)

第一節(jié) 符號(hào)

1.?G%3D(V%2CE)表示圖

2. %5Cmathsf%7BV%7D%3D%5C%7Bv_1%2C%5Cldots%2Cv_n%5C%7D表示圖中的節(jié)點(diǎn)

3.?E%5Csubseteq%20VxV表示邊

4. 結(jié)點(diǎn)特征表示為矩陣X%3D%5C%7Bx_1%2C%5Ccdots%2Cx_n%5C%7D%5Cin%5Cmathrm%7BR%7D%5E%7Bnxs%7D?,其中x_i是結(jié)點(diǎn)v_i的特征向量,c是結(jié)點(diǎn)特征的維數(shù)

5. 鄰接矩陣表示為A%3D%5C%7B%5Cmathrm%20a_1%2C%5Ccdots%2C%5Cmathrm%20a_n%5C%7D%5Cin%5Cmathrm%20R%5E%7Bnxs%7D?,其中a_i表示鄰接矩陣的第i行,A(i%EF%BC%8Cj)表示結(jié)點(diǎn)v_iv_j之間的關(guān)系

6. 結(jié)點(diǎn)的度表示為d%3D%5C%7B%5Cmathrm%7Bd%7D_1%2C%5Ccdots%2C%5Cmathrm%7Bd%7D_n%5C%7D?,其中d_i表示為連接到結(jié)點(diǎn)v_i的度權(quán)重之和

7. 信息傳遞矩陣表示為M%3D%5C%7B%5Cmathrm%7Bm%7D_1%2C%5Ccdots%2C%5Cmathrm%7Bm%7D_n%5C%7D%5Cin%5Cmathrm%7BR%7D%5E%7Bnxs%7D其中c'是消息的維數(shù)

第二節(jié) 消息傳遞的圖神經(jīng)網(wǎng)絡(luò)

圖神經(jīng)網(wǎng)絡(luò)大多采用信息傳遞框架,消息在結(jié)點(diǎn)及其鄰居之間傳遞。在傳遞的過(guò)程中,結(jié)點(diǎn)的表示不斷更新,下面是它的更新公式:

h%5E%7B(l%2B1)%7D_i%3D%5Cgamma%5E%7B(l)%7D%5Cleft(h%5E%7B(l)%7D%2CAGG_%7Bj%5Cin%20N(i)%7D%5Cleft(%5Cvarphi%5E%7B(l)%7D%5Cleft(h%5E%7B(l)%7D%2Ch%5E%7B(l)%7D%2Ce_%7Bj%2Ci%7D%5Cright)%5Cright)%5Cright)

其中h_i%5E%7B(l)%7D表示結(jié)點(diǎn)v_i在第 1 層的特征表示;N(i)表示結(jié)點(diǎn)v_i的鄰居;?%5Cvarphi%5E%7B(l)%7D%5Cgamma%5E%7B(l)%7D是可微分的函數(shù);AGG代表聚合操作。從信息傳遞的角度來(lái)看,我們可以將所有傳播的消息集合到一個(gè)消息矩陣M%20%5Cin%20R%5E%7Bkxc'%7D中,其表示為:

M_%7B(i%2Cj)%7D%5E%7B(l)%7D%3D%5Cvarphi%5E%7B(l)%7D%5Cleft(h_i%5E%7B(l)%7D%2Ch_j%5E%7B(l)%7D%2Ce_%7Bj%2Ci%7D%5Cright)

第四章 方法

第一節(jié)DropMessage

第一小節(jié) 算法描述

不同于現(xiàn)有的隨機(jī)dropping方法,DropMessage在消息矩陣M上工作而不是鄰接矩陣,即DropMessage直接在消息矩陣M上以概率%5Csigma%20執(zhí)行drop操作。具體來(lái)說(shuō),我們會(huì)根據(jù)伯努利分布%5Cepsilon_%7Bi%2Cj%7D%5Csim%5Ctext%7BBernoulli%7D(1-%5Cdelta)生成一個(gè)和消息矩陣同大小的掩碼矩陣,消息矩陣中的每個(gè)元素由對(duì)應(yīng)位置的掩碼矩陣中的值來(lái)決定以多大的程度被drop,drop之后的消息矩陣%5Cwidetilde%7BM_%7Bi%2Cj%7D%7D表示為:

%5Cwidetilde%7BM_%7Bi%2Cj%7D%7D%3D%5Cfrac%7B1%7D%7B1-%5Cdelta%7D%5Cepsilon_%7Bi%2Cj%7DM_%7Bi%2Cj%7D

第二小節(jié) 具體實(shí)現(xiàn)

在具體實(shí)現(xiàn)的過(guò)程中,我們不需要額外的時(shí)間或空間復(fù)雜度來(lái)執(zhí)行DropMessage,因?yàn)橄⒕仃囍械拿恳恍卸急硎緢D中的一條不同的有向邊,并且DropMessage方法可以獨(dú)立地在每個(gè)有向邊上執(zhí)行。這個(gè)特性使得DropMessage可以有效地并行化。

第三小節(jié) 統(tǒng)一隨機(jī)dropping方法

引理1 Dropout DropEdge DropNode DropMessage都依據(jù)著各自的規(guī)則在消息矩陣上執(zhí)行隨機(jī)掩碼對(duì)于Dropout方法,Dropping在特征矩陣X中的元素X_%7B%5Cmathrm%7Bdrop%7D%7D%3D%5C%7BX_%7Bi%2Cj%7D%7C%5Cepsilon_%7Bi%2Cj%7D%3D0%5C%7D等價(jià)于遮掩掉消息矩陣M中的元素M_%7B%5Cmathrm%7Bdrop%7D%7D%3D%5C%7BM_%7Bi%2Cj%7D%7C%5Cmathrm%7Bsource%7D(M_%7Bi%2Cj%7D)%5Cin%20X_%7B%5Cmathrm%7Bdrop%7D%7D%5C%7D,其中source(M_%7Bi%2Cj%7D)表示M_%7Bi%2Cj%7D所對(duì)應(yīng)的特征矩陣X中的那個(gè)元素。

對(duì)于DropEdge方法,Dropping在鄰接矩陣A中的元素E_%7B%5Ctext%7Bdrop%7D%7D%3D%5C%7BE_%7Bi%2Cj%7D%5Cmid%20A_%7Bi%2Cj%7D%3D1%5Ctext%7Band%7D%5Cepsilon_%7Bi%2Cj%7D%3D0%5C%7D%3B等價(jià)于遮掩掉消息矩陣M中元素M_%7B%5Cmathrm%7Bdrop%7D%7D%3D%5C%7BM_i%5Cmid%20edge%5Cleft(M_i%5Cright)%5Cin%20E_%7B%5Cmathrm%7Bdrop%7D%7D%5C%7D,其中edge%20(M_i)表示E_%7B%5Ctext%7Bdrop%7D%7D所對(duì)應(yīng)的邊。

對(duì)于DropNode方法,Dropping在特征矩陣X中的元素V_%7Bdrop%7D%3D%5C%7BX_i%5Cmid%5Cepsilon_i%3D0%5C%7D等價(jià)于遮掩掉消息矩陣M中的元素M_%7B%5Cmathrm%7Bdrop%7D%7D%3D%5C%7BM_i%5Cmid%5Cmathrm%7Bnode%7D%5Cleft(M_i%5Cright)%5Cin%20V_%7B%5Cmathrm%7Bdrop%7D%7D%5C%7D,其中node(M_i)表示M_i所對(duì)應(yīng)的特征矩陣X中那一行。

那么根據(jù)以上的描述,我們發(fā)現(xiàn)DropMessage是對(duì)消息矩陣進(jìn)行了最細(xì)粒度的屏蔽,這使得它成為最靈活的dropping方法,并且其他方法可以看作是DropMessage的一種特殊形式。

第四小節(jié) DropMessage有效性的理論分析

理論1 圖神經(jīng)網(wǎng)絡(luò)中無(wú)偏的隨機(jī)dropping將一個(gè)額外的正則化項(xiàng)引入到了目標(biāo)函數(shù)中,這使得模型更加魯棒。

證明:為了簡(jiǎn)化分析,我們假設(shè)下游任務(wù)是一個(gè)二分類任務(wù),并且我們應(yīng)用一個(gè)簡(jiǎn)單的圖卷積神經(jīng)網(wǎng)絡(luò)層H%3D%5Coverline%7BB%7DMW,其中M是消息矩陣,W是轉(zhuǎn)移矩陣,B%5Cin%20R%5E%7Bnxk%7D表示那些應(yīng)被每個(gè)結(jié)點(diǎn)聚合的消息且是規(guī)?;蟮男问?。最后,我們采用一個(gè)sigmoid作為激活函數(shù)來(lái)生成分類的預(yù)測(cè)結(jié)果Z=sigmoid(H)。并使用交叉熵?fù)p失

作為目標(biāo)函數(shù),于是目標(biāo)函數(shù)的公式如下:

L_%7BCE%7D%3D%5Csum_%7Bj%2Cy_j%3D1%7D%5Clog%5Cleft(1%2Be%5E%7B-h_j%7D%5Cright)%2B%5Csum_%7Bk%2Cy_k%3D0%7D%5Clog%5Cleft(1%2Be%5E%7Bh_k%7D%5Cright)

當(dāng)我們使用隨機(jī)dropping的時(shí)候,被擾動(dòng)的%5Cwidetilde%20M代替了原來(lái)的消息矩陣M。此時(shí)目標(biāo)函數(shù)的期望為:

E%5Cleft(%5Ctilde%7BL%7D_%7BCE%7D%5Cright)%3DL_%7BCE%7D%2B%5Csum_i%5Cfrac%7B1%7D%7B2%7Dz_i%5Cleft(1-z_i%5Cright)%5Coperatorname%7BVar%7D%5Cleft(%5Ctilde%7Bh%7D_i%5Cright)

正如上述公式所示,在圖上的隨機(jī)dropping方法引入了一個(gè)額外的正則化項(xiàng),這使得模型預(yù)測(cè)的結(jié)果趨近于0或1,因此會(huì)有更加清晰的分類判斷。通過(guò)減小%5Ctilde%7Bh%7D%20_i的方差,隨機(jī)dropping方法激勵(lì)模型提取更重要的高級(jí)表示以提升模型的魯棒性。

第二節(jié) DropMessage的優(yōu)勢(shì)

第一小節(jié) 減小樣本方差

所有的隨機(jī)dropping方法都面臨著訓(xùn)練不穩(wěn)定的問題?,F(xiàn)有的工作表明,不穩(wěn)定是由每個(gè)訓(xùn)練輪次的時(shí)候引入的隨機(jī)噪聲導(dǎo)致的,這些噪聲增加了參數(shù)覆蓋的難度和訓(xùn)練的不穩(wěn)定性。一般來(lái)說(shuō),樣本方差被用來(lái)衡量穩(wěn)定程度。而相比于其他方法,DropMessage可以有效減少樣本方差。

理論2 在現(xiàn)有的隨機(jī)dropping方法中以相同概率進(jìn)行drop的情況下,DropMessage表現(xiàn)出最小的樣本方差

證明:隨機(jī)dropping方法的樣本方差可以通過(guò)計(jì)算消息矩陣的范數(shù)%5Cmid%20M%5Cmid%20F來(lái)衡量。在不失一般性的前提下,我們假設(shè)原始的消息矩陣M1_%7Bn%5Ctimes%20n%7D,即每個(gè)元素都是1。因此,我們可以通過(guò)消息矩陣的1-范數(shù)來(lái)計(jì)算其樣本方差。

我們認(rèn)為消息傳遞的GNN沒有結(jié)點(diǎn)sampler和邊sampler,這意味著每個(gè)有向邊都等價(jià)于消息矩陣M中的一個(gè)行向量。為了簡(jiǎn)化分析,我們假設(shè)圖是無(wú)向圖,每個(gè)結(jié)點(diǎn)的度都是d。在本例中,消息矩陣的總行數(shù)為k%20%3D%202%20%5Cmid%20E%20%5Cmid%20%3D%20n%20d。所有的隨機(jī)dropping方法都可以看作多個(gè)獨(dú)立的伯努利采樣。整個(gè)過(guò)程是符合二項(xiàng)分布的,因此我們可以計(jì)算出%5Cvert%20M%5Cvert%20的方差。

對(duì)于Dropout來(lái)說(shuō),執(zhí)行nc次的伯努利采樣,在特征矩陣中遮掩一個(gè)元素會(huì)遮掩消息矩陣中的d個(gè)元素,方差為(1-%5Cdelta)%5Cdelta%20ncd%5E2

對(duì)于DropEdge來(lái)說(shuō),執(zhí)行nc次的伯努利采樣,在鄰接矩陣中遮掩一個(gè)元素會(huì)遮掩消息矩陣中的2c個(gè)元素,方差為2(1-%5Cdelta)%5Cdelta%20n%20c%5E2%20d

對(duì)于DropNode來(lái)說(shuō),執(zhí)行n次的伯努利采樣,在邊集合中遮掩一個(gè)元素會(huì)遮掩消息矩陣中的cd個(gè)元素,方差為(1-%5Cdelta)%5Cdelta%20n%20c%5E2%20d%5E2

對(duì)于DropMessage來(lái)說(shuō),執(zhí)行ncd次的伯努利采樣,在消息矩陣中遮掩一個(gè)元素會(huì)遮掩消息矩陣中的1個(gè)元素,方差為(1-%5Cdelta)%5Cdelta%20ncd

綜上,DropMessage的方差最小。

直覺上,DropMessage獨(dú)立地決定了在消息矩陣中的元素掩碼與否,這恰好是隨機(jī)dropping消息矩陣的最小伯努利跡。通過(guò)減小樣本方差,DropMessage減小了不同訓(xùn)練輪次的消息矩陣差異,這穩(wěn)定了訓(xùn)練并加快了收斂速度。DropMessage具有最小樣本方差的原因是它是GNN模型中最細(xì)粒度的隨機(jī)dropping方法。在應(yīng)用DropMessage時(shí)會(huì)獨(dú)立判斷每個(gè)元素M_%7Bi%2Cj%7D是否需要屏蔽。

第二小節(jié) 保持信息多樣性

我們將從信息論的角度比較不同隨機(jī)dropping方法損失信息多樣性的程度。

定義1 信息多樣性包含特征多樣性和拓?fù)涠鄻有?。我們定義特征多樣性為FD_G%3D%5Coperatorname%7Bcard%7D%5Cleft(%5Cleft%5C%7B%5Cleft%5ClVert%20M_%7BSN(vi)%2Cl%7D%5Cright%5CrVert_0%5Cgeq1%5Cright%5C%7D%5Cright),這里v_i%5Cin%20V%2Cl%5Cin%5B0%2Cc)%2CSN(v_i)%5D指的是對(duì)應(yīng)于來(lái)自v_i的邊的行號(hào)的切片。信息多樣性定義為TD_G%3D%5Coperatorname%7Bcard%7D%5Cleft(%5Cleft%5C%7B%5Cleft%5ClVert%20M_j%5Cright%5CrVert_0%5Cgeq1%5Cright%5C%7D%5Cright),這里j%5Cin%20%5B0%2Ck),M表示信息矩陣,card()表示集合中元素的個(gè)數(shù)。

換而言之,特征多樣性被定義為來(lái)自不同源結(jié)點(diǎn)的保留特征維度的總數(shù);拓?fù)涠鄻有员欢x為傳播至少一個(gè)維度消息的有向邊的總數(shù)。根據(jù)上述的定義,我們認(rèn)為只有在隨機(jī)dropping后特征多樣性和拓?fù)涠鄻有远疾粶p少的方法才具有保持信息多樣性的能力。

引理2 Dropout DropEdge DropNode 都不具有保持信息多樣性的能力

根據(jù)定義1,當(dāng)我們drop掉特征矩陣X中的一個(gè)元素時(shí),所有在消息矩陣中對(duì)應(yīng)的元素都會(huì)被遮掩掉并且特征多樣性降低1. 當(dāng)我們drop掉鄰接矩陣中的一條邊時(shí),對(duì)應(yīng)的在消息矩陣無(wú)向圖的兩行也會(huì)被遮掩掉并且拓?fù)涠鄻有越档?.同理,當(dāng)drop掉一個(gè)結(jié)點(diǎn)時(shí)特征多樣性和拓?fù)涠鄻有远紩?huì)降低。

理論3 當(dāng)drop率小于等于1-%5Cmin%5Cleft(%5Cfrac%7B1%7D%7Bd_i%7D%2C%5Cfrac%7B1%7D%7Bc%7D%5Cright)時(shí),DropMessage可以保持信息多樣性。其中d_i是結(jié)點(diǎn)v_i的出度,c是特征維度。

證明:DropMessage直接對(duì)消息矩陣M進(jìn)行隨機(jī)丟棄。為了保持拓?fù)涠鄻有?,我們期望消息矩陣M中每一行至少保留一個(gè)元素:

E(%7C%5Cmathbf%7BM%7D_f%7C)%5Cgeq1%5CRightarrow(1-%5Cdelta)c%5Cgeq1%5CRightarrow%5Cdelta%5Cleq1-%5Cfrac%7B1%7D%7Bc%7D

為了保持特征多樣性,我們期望對(duì)于特征矩陣X中的每個(gè)元素,消息矩陣M中至少保留一個(gè)其對(duì)應(yīng)的元素:

E(%7C%5Cmathbf%7BM%7D_e%7C)%5Cgeq1%5CRightarrow(1-%5Cdelta_i)d_i%5Cgeq1%5CRightarrow%5Cdelta_i%5Cleq1-%5Cfrac%7B1%7D%7Bd_i%7D

因此,為了滿足上述兩式以保持信息多樣性的drop比例%5Cdelta%20_i應(yīng)滿足:

%5Cdelta_i%5Cleq1-%5Cmin%5Cleft(%5Cfrac%7B1%7D%7Bd_i%7D%2C%5Cfrac%7B1%7D%7Bc%7D%5Cright)

從信息論的角度來(lái)看,具有保持信息多樣性能力的隨機(jī)dropping方法比沒有這種能力的能保存更多的信息,并在理論分析上其性能也更好。因此,這也解釋了為什么DropMessage比現(xiàn)有的其他方法都要好。實(shí)際上,我們只為整個(gè)圖設(shè)置了一個(gè)drop率參數(shù),沒有為每個(gè)結(jié)點(diǎn)都設(shè)置。雖然這樣會(huì)使DropMessage損失更多信息,但DropMessage仍然比具有相同drop率的其他方法能保留更多信息。

第五章 實(shí)驗(yàn)

我們?cè)诓煌膱D神經(jīng)網(wǎng)絡(luò)和不同數(shù)據(jù)集中比較DropMessage和其他方法,我們主要想驗(yàn)證:

  1. DropMessage是否在圖神經(jīng)網(wǎng)絡(luò)中優(yōu)于其他drop方法?

  2. DropMessage是否提升了魯棒性,并讓圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更高效?

  3. 定義1中所描述的信息多樣性在圖神經(jīng)網(wǎng)絡(luò)中重要嗎?

如圖所示,我們使用了三種圖神經(jīng)網(wǎng)絡(luò)(GCN、GAT、APPNP),每種神經(jīng)網(wǎng)絡(luò)都被應(yīng)用了Dropout、DropEdge、DropNode、DropMessage這四種隨機(jī)dropping方法。

通過(guò)上述實(shí)驗(yàn),我們得出以下結(jié)論:

  1. DropMessage優(yōu)于其他隨機(jī)dropping方法。在結(jié)點(diǎn)分類任務(wù)下的21個(gè)實(shí)驗(yàn)設(shè)置中DropMessage在15個(gè)設(shè)置中取得最好的實(shí)驗(yàn)結(jié)果,在剩下6個(gè)設(shè)置中取得次好的實(shí)驗(yàn)結(jié)果;在鏈路預(yù)測(cè)任務(wù)下的9個(gè)實(shí)驗(yàn)設(shè)置中DropMessage在5個(gè)設(shè)置中取得最好的實(shí)驗(yàn)結(jié)果,在剩下4個(gè)設(shè)置中取得次好的實(shí)驗(yàn)結(jié)果。

  2. DropMessage 在不同的數(shù)據(jù)集中的表現(xiàn)十分穩(wěn)定。而以DropEdge為反例,我們可以看出其在工業(yè)數(shù)據(jù)集(FinV和Telecom)上表現(xiàn)出色,但在其余的公開數(shù)據(jù)集上表現(xiàn)差勁。我們認(rèn)為是得益于DropMessage細(xì)粒度的drop策略使其有更小的歸納偏置,也因此更適用于大多數(shù)的場(chǎng)景。

除了上述實(shí)驗(yàn),我們還做了更多的實(shí)驗(yàn)分析:

一、 魯棒性分析

我們通過(guò)測(cè)量隨機(jī)dropping方法處理每個(gè)擾動(dòng)圖的能力來(lái)研究它的魯棒性。為了保證初始數(shù)據(jù)相對(duì)干凈,我們?cè)贑ora、CiteSeer和PubMed這三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。我們?cè)谶@些數(shù)據(jù)集中隨機(jī)添加一定比例的邊,并進(jìn)行節(jié)點(diǎn)分類任務(wù)。我們發(fā)現(xiàn),當(dāng)擾動(dòng)率從0%增加到30%時(shí),所有的隨機(jī)掉落方法都有正向的效果。與沒有攝動(dòng)的情況相比,在30%擾動(dòng)的情況下,平均提高了37%,這表明隨機(jī)掉落方法增強(qiáng)了圖神經(jīng)網(wǎng)絡(luò)模型的魯棒性。此外,我們所提出的DropMessage顯示了它的通用性,并優(yōu)于其他方法。

二、 過(guò)平滑分析

過(guò)平滑指的是隨著網(wǎng)絡(luò)深度的增加,結(jié)點(diǎn)的表示越來(lái)越難以區(qū)分。在這一部分中,我們?cè)u(píng)估了各種隨機(jī)dropping方法對(duì)這個(gè)問題的影響,并通過(guò)MADGap測(cè)量了過(guò)度平滑的程度(Chenet al. 2020),其值越小結(jié)點(diǎn)的表示越難以區(qū)分。

A圖表明隨著模型深度的增加,隨機(jī)dropping方法都可以增加MADGap值;B圖表明隨著模型深度的增加,隨機(jī)dropping方法都可以提高測(cè)試準(zhǔn)確率。但是在這些隨機(jī)dropping方法DropMessage的表現(xiàn)是最佳的。當(dāng)層數(shù)l≥3時(shí),與其他隨機(jī)掉落方法相比,其MADGap值平均提高3.3%,測(cè)試準(zhǔn)確率平均提高4.9%。這個(gè)結(jié)果可以說(shuō)明DropMessage比其他方法生成了更多不同的消息,這在一定程度上阻止了節(jié)點(diǎn)收斂到相同的表示上。

三、 訓(xùn)練過(guò)程分析

我們分析了不同隨機(jī)dropping方法在訓(xùn)練過(guò)程中的損失變化。C圖是Cora數(shù)據(jù)集上不同隨機(jī)dropping方法應(yīng)用于GCN網(wǎng)絡(luò)的損失曲線。這個(gè)實(shí)驗(yàn)結(jié)果說(shuō)明DropMessage有最小的樣本方差,因此收斂得更快且具有更穩(wěn)定的性能表現(xiàn)。

四、 信息多樣性分析

我們用Cora數(shù)據(jù)集來(lái)驗(yàn)證信息多樣性是否重要,Cora數(shù)據(jù)集有2708個(gè)結(jié)點(diǎn),5429條邊,結(jié)點(diǎn)的平均度接近于4。根據(jù)之前在信息多樣性小節(jié)的分析,dropping率的上屆由結(jié)點(diǎn)的度和特征維度計(jì)算得來(lái)。在Cora數(shù)據(jù)集中特征維度為1433,它比結(jié)點(diǎn)的度大得多,因此上屆僅由度來(lái)決定。我們用兩個(gè)實(shí)驗(yàn)設(shè)置來(lái)驗(yàn)證信息多樣性。第一個(gè)是結(jié)點(diǎn)粒度實(shí)驗(yàn),它對(duì)每個(gè)結(jié)點(diǎn)應(yīng)用其dropping率上屆大小的dropping率?。第二個(gè)是平均粒度實(shí)驗(yàn),所有結(jié)點(diǎn)的dropping率都是0.75+?%5Cepsilon%5Csim%20Uniform(-0.15%2C0.15)。根據(jù)實(shí)驗(yàn),我們發(fā)現(xiàn)結(jié)點(diǎn)粒度的效果好于平均粒度,這也就驗(yàn)證了信息多樣性的重要性。

第六章 結(jié)論

本文,我們提出DropMessage,一種更泛化的應(yīng)用于圖神經(jīng)網(wǎng)絡(luò)的隨機(jī)dropping方法。首先,我們統(tǒng)一了隨機(jī)dropping方法并分析了它們的性能。其次,我們從理論上說(shuō)明了DropMessage在穩(wěn)定訓(xùn)練過(guò)程和保持信息多樣性方面的優(yōu)勢(shì)。由于其對(duì)消息矩陣做細(xì)粒度的drop操作,DropMessage在大多數(shù)情況下顯示出更大的可應(yīng)用性。最后,通過(guò)在五個(gè)公共數(shù)據(jù)集和兩個(gè)工業(yè)數(shù)據(jù)集上進(jìn)行的多任務(wù)實(shí)驗(yàn),我們證明了所提方法的有效性和泛化性。


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~?

往期精彩文章



AAAI 2023 best paper DropMessage:統(tǒng)一的圖神經(jīng)網(wǎng)絡(luò)隨機(jī)Dropping方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阳谷县| 常州市| 柞水县| 乌审旗| 丹东市| 温泉县| 普兰县| 三明市| 江城| 尼木县| 电白县| 工布江达县| 随州市| 平昌县| 义乌市| 广西| 广宁县| 荥经县| 亚东县| 林周县| 华池县| 襄城县| 孟津县| 宝山区| 诸暨市| 永安市| 上高县| 昌都县| 本溪市| 朔州市| 焦作市| 苏州市| 克什克腾旗| 元氏县| 张家港市| 东兴市| 修水县| 沙坪坝区| 台北市| 五台县| 平武县|