最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Neural Networks:使用多圖數(shù)據(jù)表征來量化圖神經(jīng)網(wǎng)絡的再現(xiàn)性

2022-05-31 15:38 作者:茗創(chuàng)科技  | 我要投稿

導讀

近些年來,圖神經(jīng)網(wǎng)絡(GNN)在計算機視覺、輔助診斷等領(lǐng)域的應用得到了前所未有的發(fā)展。以往的研究主要集中在提高模型的準確性上,但在臨床應用中,如何對GNN下最具鑒別特征的可重復性進行量化仍然是一個問題,這使人們對其可靠性產(chǎn)生了擔憂。由于,在不同臨床數(shù)據(jù)集下生物標志物的可重復性以及在不同類別(如健康和紊亂的大腦)中的分布變化,對于揭示疾病的機制以及推動個性化治療的發(fā)展至關(guān)重要。作者首次提出了基于可重復性的GNN模型選擇(RG-Select),這是一個在不同模型之間尋找相同的生物標志物來對GNN的可重復性進行量化評估的方法。為了檢驗該方法的可靠性,可重復性評估包括了不同因素的變化,如訓練策略和數(shù)據(jù)擾動。在不同的訓練策略和不同的臨床數(shù)據(jù)集上,該方法成功地得出了一致性的結(jié)論。因此,本研究的發(fā)現(xiàn)有利于尋找評估生物標志物可信度和可靠性的方法,用于計算機輔助診斷和預后任務。RG-Select代碼可以在GitHub https://github.com/basiralab/RG-Select上獲取。


1.前言

由于深度學習(DL)在處理分類和回歸等問題上的有效性,深度學習在神經(jīng)科學中的應用范圍正朝著多個方向呈指數(shù)級增長。從不同的模式(例如,結(jié)構(gòu)和功能MRI)獲得的大量非侵入性神經(jīng)成像數(shù)據(jù),以及新的計算方法的使用,無疑將推動研究的進展,這深化了我們對大腦連接性的理解。特別是在網(wǎng)絡神經(jīng)科學中,圖結(jié)構(gòu)被認為是一種強大的數(shù)據(jù)展示方式,因為它能夠編碼不同大腦區(qū)域之間的連接。大腦連接性是指大腦不同解剖區(qū)域(ROIs)的連接圖,可以提供大腦網(wǎng)絡結(jié)構(gòu)的全面地圖。它有助于以非侵入性的方式更好地理解不同ROI之間在解剖學上的相互作用。大腦連接性可以被建模為一個圖,其中每個節(jié)點表示一個ROI,一條邊連接兩個ROI,從而量化它們之間的相互作用。傳統(tǒng)的DL方法,不能充分利用非歐幾里得數(shù)據(jù)的拓撲性質(zhì),因而得到的結(jié)果并不盡如人意。而圖神經(jīng)網(wǎng)絡(GNNs)做為一種可以處理非歐幾里德數(shù)據(jù)的擴展DL方法,可作為傳統(tǒng)DL算法的替代品。在網(wǎng)絡神經(jīng)科學領(lǐng)域,GNNS在執(zhí)行給定任務(如分類或回歸)下尋找圖的拓撲特征方面顯示出了良好的潛力。迄今為止,大多數(shù)用于網(wǎng)絡神經(jīng)科學的DL和GNN分類模型主要集中在提高區(qū)分兩種神經(jīng)狀態(tài)(如健康和神經(jīng)紊亂)的準確性上??梢栽u估GNNS在給定的學習任務中重現(xiàn)最具有鑒別ROI集的能力。具體來說,如果兩個模型在最重要的特征/生物標志物上存在相同特征,這表明這些特征在各個模型中是可重復的。由于不同的模型最終會發(fā)現(xiàn)相同的判別特征,這表明這些模型是可重現(xiàn)的。此外,使用各種交叉驗證策略改變訓練和測試數(shù)據(jù)的分布狀態(tài),用于評估這種共識是否成立。一個特定的GNN模型能夠在不同的交叉驗證策略下與大多數(shù)其他模型一致地再現(xiàn)相同的特征,這表明了該模型具有高再現(xiàn)性。因此,在GNN-to-GNN再現(xiàn)矩陣中,將使用最具再現(xiàn)性的模型作為中心節(jié)點。以往基于準確性的GNN比較只關(guān)注最終的分類結(jié)果,而忽略了實際的生物標志物的可靠性(即無法準確識別生物標志物背后的神經(jīng)科學意義)。然而,與基于準確性的GNN評估不同,在可重復性定義下,臨床治療中患有相同大腦疾病的患者會顯示出更高的疾病生物標志物重疊(例如,阿爾茨海默癥患者的皮層厚度降低),這樣在臨床治療中得到的生物標志物結(jié)果更為可靠??芍貜托砸驯唤ㄗh在數(shù)據(jù)分布擾動下尋找兩種模型間的差異。可解釋性研究側(cè)重于揭示不同層和權(quán)重如何影響GNN的決策(即,分類,分割),而可重復性研究重點在于評估即定的GNN在多重數(shù)據(jù)擾動下產(chǎn)生和再現(xiàn)一致結(jié)果的能力。作者主要感興趣的是后者,目的是研究和量化給定GNN的可重復性。具體地說,GNNs預測是通過識別大腦區(qū)域之間不同的連接變化來進行學習的,這些改變標志著一種特定的紊亂情況。為了加深對大腦連接性的理解,作者將從生物標志物的角度量化GNN的可重復性,這對可靠性的評價至關(guān)重要。在這種情況下,模型的可重復性,可以看作是它與其他模型一致性的可能性大小。具體來說,對GNN模型的可重復性進行評分,也就是將其最相關(guān)的特征與其他GNN模型識別的特征求交集。并且在訓練和測試數(shù)據(jù)分布的各種擾動下進行GNN的再現(xiàn)性評估。

有研究也試圖解決生物標志物或特征再現(xiàn)的問題。Jin等人(2020)研究了從不同站點收集的數(shù)據(jù)集的再現(xiàn)性,用于評估即定模型的適用性,Du等人(2020)通過研究跨數(shù)據(jù)集的生物標志物的再現(xiàn)性,以提取出最能重現(xiàn)的導致神經(jīng)異常的大腦變化。盡管他們已經(jīng)得出了可靠的結(jié)論,但這些方法并沒有研究大腦多圖數(shù)據(jù)集下(即,對于同一對節(jié)點,具有不同連通性度量的圖)連接性的可重復性。另一個工作重點是跨模型的可重復性,這種方法更能體現(xiàn)一致性,因為它同時考慮了多個模型,并考慮了包含大腦的多圖數(shù)據(jù)集。此外,Georges等人(2020)提出的方法只關(guān)注了傳統(tǒng)的特征選擇(FS)方法,由于其復雜性,無法直接應用于GNNs。大多數(shù)GNNs都包含了改變輸入空間原始維數(shù)的圖嵌入或圖重構(gòu)操作。為此,作者提取即定GNN模型最后一層的權(quán)值,以保留原始圖的維數(shù)。此外,為每個GNN構(gòu)建了一個特征圖,以描述神經(jīng)生物標記物的區(qū)別,在這里指的是大腦ROIs。最后一層可以看作是給定神經(jīng)網(wǎng)絡中所有先前神經(jīng)元的加權(quán)組合,這一事實也證明了這種選擇是正確的。最后,使用不同的策略來分析不同GNN模型下特征的交集,以選擇最具再現(xiàn)性的GNN,如圖1所示。

圖1.基于再現(xiàn)性的模型選擇。(A)基于使用單一視圖數(shù)據(jù)集復制生物標志物的能力來進行模型選擇。(B)在給定的多視圖數(shù)據(jù)集上,基于重現(xiàn)生物標志物的能力進行模型選擇。


本研究使用再現(xiàn)性的概念來描述GNN在不同擾動技術(shù)下如何很好地再現(xiàn)相同的結(jié)果。更重要的是,在本研究中,作者提出了可重復性的概念作為GNN模型最佳的選擇標準。值得注意的是,與生物標志物相關(guān)的權(quán)重特征圖反映了在輸入域中既定GNN模型的重要性。通過將特征選擇示例中的再現(xiàn)性概念定義為不同模型中所選擇生物標志物的共識,可以將這種方法擴展到GNN模型中,將學習到的權(quán)重作為一個重要因素。然后選擇頂部加權(quán)的生物標志物,從不同的角度研究GNN之間的重疊。為了確保普適性,本研究考慮了多種因素的變化,如大腦連接測量、訓練數(shù)據(jù)分布擾動策略以及兩種不同神經(jīng)狀態(tài)(例如,健康vs.紊亂)?;谶@些因素,以GNN再現(xiàn)性為目標,使用不同的技術(shù),以建立一個可推廣和可信的臨床解釋。

因此,作者提出了一種基于再現(xiàn)性GNN選擇(RG-Select)的新框架,該框架研究了大腦連接多圖數(shù)據(jù)集中GNN分類器的再現(xiàn)性,其中兩個節(jié)點由多個邊連接,每個邊捕捉大腦交互的特定方面。具體地說,本研究的目標是在不同的設置下嚴格地評估該框架,以便提供可推廣的結(jié)果。在此背景下,本研究納入了以下因素的變化:(1)GNNs,(2)每個數(shù)據(jù)集的腦連接測量,(3)訓練策略,(4)選擇生物標志物的數(shù)量,(5)連接測量(例如,皮層厚度和溝深度)。考慮到這些因素,本研究通過給定一個GNN模型和特定的感興趣的數(shù)據(jù)集,讓RG-Select識別出最具再現(xiàn)性的GNN模型。


2.基于再現(xiàn)性的圖神經(jīng)網(wǎng)絡選擇(RG-Select)

這部分將詳細介紹RG-Select如何用于量化GNN的再現(xiàn)性,如圖2所示。首先,從每個多圖中分離視圖來構(gòu)造單視圖數(shù)據(jù)集。在每個數(shù)據(jù)集上分別訓練一組GNN。在訓練之后,根據(jù)所得到的權(quán)重進行排序,提取出具有鑒別性的生物標志物(即ROIs)。最后,根據(jù)模型間的鑒別性生物標志物重疊對每個模型進行評分。模型間可重復性評分用于建立綜合的可重復性矩陣,該矩陣包含了不同因素的變化。

圖2.GNN再現(xiàn)性評估框架的圖解。


2.1.問題陳述由于數(shù)據(jù)集中含有大腦連接的多圖數(shù)據(jù),所以用

對不同的大腦神經(jīng)狀態(tài)進行分類,用

分別表示大腦連接性的多圖的數(shù)據(jù)集和標簽。每個連通性數(shù)據(jù)集Gi是通過疊加(即連接)一組nv視圖來獲得的。每個視圖作為一個連接性矩陣,代表不同的皮層測量值(例如,皮層厚度)。用公式:

表示視圖,

表示多重圖數(shù)據(jù)中的視圖索引。而大腦連接多圖數(shù)據(jù)可以用向量

和標簽

來表示。設

是第j個視圖構(gòu)建的數(shù)據(jù)集。給定一組nm?GNNs {GNN1, GNN2, . . . GNNnm?},作者感興趣的是在單視圖數(shù)據(jù)集

下的訓練模型GNNi:

,目標是在不同的數(shù)據(jù)擾動下,識別最具再現(xiàn)性的GNN,用于區(qū)分兩種大腦狀態(tài)的相同生物標志物。因此,從第i個GNN模型提取權(quán)重向量wi∈Rnr,其中 i∈{1,2,…,nm},對每個既定的數(shù)據(jù)集中提取所有視圖和GNN的權(quán)重。接下來,再根據(jù)各自權(quán)重的絕對值對生物標志物進行排序。最后,計算再現(xiàn)性得分,具體如下所示。


2.2.模型選擇與評估

與機器學習實踐一致,作者分別進行了模型選擇和評估步驟,以確保按照Errica、Podda、Bacciu和Micheli(2019)中的協(xié)議對模型進行評估。為此,作者將訓練集劃分為內(nèi)部訓練集和拒絕子集。接下來,在內(nèi)部訓練集上訓練GNN,并在拒絕子集中對其進行驗證,以進行模型選擇。模型選擇的目的是根據(jù)驗證集的性能來尋找最優(yōu)參數(shù)。接下來,選出驗證集中的最優(yōu)參數(shù)組合。然后,在模型評估步驟中使用最優(yōu)參數(shù),再根據(jù)不同的k折交叉驗證(CV),k折CV由k個不同的訓練/測試分割組成,用于評估模型的性能。對每個模型在單獨的測試集上進行評估。在每次迭代中,選擇從未使用過的樣本子集上對模型進行測試。此外作者也對不同數(shù)據(jù)分區(qū)中的分層標簽進行了確認,以便在所有訓練/測試/驗證分割中保留類比例。


2.3.GNN訓練模式

采用不同的訓練方式對GNN進行訓練,以保證結(jié)果的適用性?;趥鹘y(tǒng)的k折交叉驗證協(xié)議進行訓練,按照erica等人(2019)的方法在訓練集上對模型進行訓練。該模式只對數(shù)據(jù)集中的少數(shù)樣本進行模型訓練,并對剩余的對象進行評估,使用這兩種方法對于確保該框架的結(jié)果與數(shù)據(jù)擾動和訓練策略無關(guān)是至關(guān)重要的。


2.4.生物標志物的選擇

傳統(tǒng)方法重點關(guān)注鑒別的準確性,然而,本研究重點關(guān)注的是生物標志物在不同模型下的再現(xiàn)性。通常情況下,用FS方法提取最具鑒別性的生物標志物是很簡單的。但是,由于GNN方法的體系結(jié)構(gòu)不同,無法用一種方法來提取所有重要的生物標志物。為了規(guī)避這個問題,作者保留了輸入數(shù)據(jù)最后一層的權(quán)重。具體來說,根據(jù)既定的GNN對這些生物標志物的學習權(quán)重進行排序。基于該順序,根據(jù)輸入多圖數(shù)據(jù)集的第j個視圖訓練的第i個GNN學習到的權(quán)重,提取包含前Kh個生物標志物的

。

定義1

分別表示GNNi和GNNj在同一視圖v上學習到的k的生物標志物中的兩個向量。用

分別表示包含區(qū)域的兩個集合。定義視圖v在模型i和j之間的閾值k處的特定視圖再現(xiàn)性為

定義2

分別表示同一GNNg在視圖i和視圖j上學習到的前k個生物標志物中的兩個向量。用

表示包含區(qū)域中兩個集合。將閾值k在視圖i和j之間的特定GNN的再現(xiàn)性定義為


2.5.特定視圖的再現(xiàn)性矩陣

對于一個包含nm?GNNs的集合,目標是量化每對模型之間的可重復性。由于可重復性反映的是兩組生物標志物之間的共性,所以選擇計算重疊ROIs的比率。首先,需要量化相同區(qū)域中的再現(xiàn)性。換句話說,對于給定的視圖v和閾值Kh的情況下去計算每對模型GNNi和GNNj的比值 。計算出每對GNN的再現(xiàn)性后,構(gòu)造出再現(xiàn)性矩陣

,

,接下來,通過合并不同p閾值

下所有再現(xiàn)性矩陣來生成得到再現(xiàn)性矩陣的均值nk,其中nk是閾值的數(shù)量。最后,在對局部的可重復性計算得到所有視圖的再現(xiàn)復性。因此,作者對所有視圖和訓練模式的結(jié)果矩陣進行均值計算。


2.6.特定GNN的再現(xiàn)性矩陣

另一種量化再現(xiàn)性的方法,先是量化相同GNN視圖間的共性,這是因為GNN在不同的數(shù)據(jù)視圖上有不同的學習權(quán)重分布。對于同一個模型,對特定GNN下不同視圖之間的再現(xiàn)性進行計算。對于給定的GNNg,構(gòu)建出矩陣

,其中

。然后,計算閾值的均值,

。最后,計算出不同訓練模式下,每個模型特定GNN再現(xiàn)性矩陣的均值。



3.結(jié)果

3.1.評估數(shù)據(jù)集

作者在大小規(guī)模不同的大腦連接數(shù)據(jù)集上評估了再現(xiàn)性框架。第一個數(shù)據(jù)集(AD/LMCI)包括77名受試者[41名受試者被診斷為阿爾茨海默病(AD)(平均年齡70.4±7.5)和36名診斷為晚期輕度認知障礙(LMCI)(平均年齡74.1±6.7)],來自阿爾茨海默癥神經(jīng)成像計劃(ADNI)數(shù)據(jù)庫GO公共數(shù)據(jù)集。第二個數(shù)據(jù)集(ASD/NC)包括300名受試者(均為15歲以下),他們分別處于孤獨癥譜系障礙(ASD)和正常對照(NC)狀態(tài),這些數(shù)據(jù)來自于孤獨癥大腦成像數(shù)據(jù)交換的ABIDE I公共數(shù)據(jù)集。

對于這兩個數(shù)據(jù)集,使用FreeSurfer通過結(jié)構(gòu)T1-W MRI對每個受試者的皮層形態(tài)網(wǎng)絡進行構(gòu)建,從而獲得大腦連通性信息。接下來,使用Desikan Killiany分別將左右皮層半球(LH和RH)分成35個皮層ROIs。使用4個皮層測量值來構(gòu)建AD/LMCI (RH和LH)的大腦多圖數(shù)據(jù),包括最大主曲率、皮層厚度、溝深度和平均曲率。除了皮層表面積和最小原則面積外,大腦多圖還包含了6個與AD/LMCI數(shù)據(jù)集相同的皮層屬性信息。具體來說,對于每個節(jié)點ROIi和每個皮層屬性,對其所有頂點的平均皮層測量值

進行計算,用平均皮層屬性

之間的絕對距離,作為ROIi和ROIj的連接性權(quán)重。本研究的再現(xiàn)性框架使用了5種最先進的GNN模型:DiffPool、GAT、GCN、SAGPool以及g-U-Nets。


3.2.訓練設置和超參數(shù)

作者使用了兩種不同類型的訓練:資源豐富和樸素。資源豐富的訓練采用常規(guī)的方法來對模型進行訓練。作者還制定了3折和5折交叉驗證策略。除了基于k折交叉驗證的資源豐富訓練法,還對少樣本的樸素訓練法進行了驗證,也就是對每個數(shù)據(jù)集的類別只訓練2個樣本。為了限制與參數(shù)/樣本選擇相關(guān)的干預,進行100次的重復隨機實驗。使用了4個閾值來提取頂部生物標志物,分別是5、10、15和20。采用網(wǎng)格搜索法選擇參數(shù),所有模型的學習率都在0.0001和0.001之間。


3.3.總體再現(xiàn)性矩陣3.3.1.基于特定視圖矩陣的再現(xiàn)性為了量化GNN模型的再現(xiàn)性,作者使用了4種不同的方法。第一種方法包括計算特定于視圖的再現(xiàn)性矩陣,再在對選定數(shù)據(jù)集的所有視圖求平均值。這個方法可以直觀的結(jié)合每個視圖的計算信息。


3.3.2.基于特定GNN矩陣的再現(xiàn)性

對特定GNN的再現(xiàn)性矩陣進行排序。對于每個GNN,提取一個向量來表示視圖的秩次。接下來,根據(jù)各自的再現(xiàn)性矩陣,計算每對GNN之間的相關(guān)系數(shù)。因此,作者構(gòu)建了一個包含GNN對應關(guān)系的再現(xiàn)性矩陣。這個方法可以有效的反映GNN在不同視圖之間的相同行為。


3.4.選擇最具再現(xiàn)性的GNN模型

本研究將再現(xiàn)性矩陣定義為上述兩個矩陣之和。為了利用特定GNN和特定視圖的矩陣,作者將上面兩個再現(xiàn)性矩陣相加。因此,可以將整體的再現(xiàn)性矩陣視作一個圖形,其中節(jié)點表示GNN模型,節(jié)點強度量化表示GNN模型的再現(xiàn)性評分。這一概念基于模型的再現(xiàn)性反映了生物標志物與其他模型的相同點。將這個想法投射到拓撲圖上,節(jié)點強度做為拓撲度量,表示與圖中其他部分的連接強度的大小。對于每個神經(jīng)數(shù)據(jù)集,使用CV和FS兩種不同的訓練方式來訓練GNN模型。圖3和圖4分別說明了AD/LMCI RH和LH數(shù)據(jù)集的再現(xiàn)性矩陣。對于這些數(shù)據(jù)集,最具再現(xiàn)性的GNN模型分別是DiffPool和SAGPool。圖6和圖5展示了ASD/NC數(shù)據(jù)集的再現(xiàn)性性矩陣。從整體矩陣而言,g-U-Nets和GAT分別是LH和RH上最具再現(xiàn)性的模型。結(jié)果表明,對于所有的數(shù)據(jù)集,在不同的訓練模式下,最具再現(xiàn)性的模型選擇是通用的。這說明了本研究的框架在不同數(shù)據(jù)分布擾動下對再現(xiàn)性進行評估的能力。此外,不同模型間的最高節(jié)點強度在再現(xiàn)性上的得分(基于相關(guān)性和基于平均)可能不完全相同。這說明了GNN的選擇高度依賴于再現(xiàn)性評分。然而,關(guān)于最具再現(xiàn)性的模型選擇,結(jié)果矩陣的總和給出了一致的結(jié)論,一旦選擇了最具再現(xiàn)性的GNN模型,將提取其學習權(quán)重,如圖7所示。

圖3.AD/LMCI LH數(shù)據(jù)集的再現(xiàn)性矩陣熱圖。


圖4.AD/LMCI RH數(shù)據(jù)集的再現(xiàn)性矩陣熱圖。


圖5.ASD/NC LH數(shù)據(jù)集的再現(xiàn)性矩陣熱圖。


圖6.ASD/NC RH數(shù)據(jù)集的再現(xiàn)性矩陣熱圖。



圖7.通過四組數(shù)據(jù)集的最具再現(xiàn)性的模型來得到大腦皮層區(qū)域的權(quán)重。



結(jié)論

大多數(shù)分類模型都專注于提高既定模型的準確性,然而在本研究中,研究者解決了特征再現(xiàn)的問題。這是第一次使用多圖大腦連接數(shù)據(jù)集來研究GNN在生物標志物中的再現(xiàn)性。RG-Select在不同的訓練策略(如交叉驗證和少樣本學習)下顯示出一致的結(jié)果。此外,作者在不同規(guī)模的數(shù)據(jù)集上對本研究中的框架進行了評估,這項工作在精準醫(yī)療方面又邁出了一大步,因為它在不同擾動下結(jié)合了多視圖的臨床數(shù)據(jù)集對神經(jīng)生物標志物的再現(xiàn)性進行了研究。作者相信,再現(xiàn)性框架在神經(jīng)紊亂人群的研究中,將有助于大腦連接的生物標志物的提取。該框架的一個主要缺點是運行所有實驗過程消耗的時間太長。為了解決這個問題,未來的研究將在不同擾動下對即定模型整體再現(xiàn)性進行預測,而不是在所有數(shù)據(jù)集上運行該模型。


原文:Quantifying the reproducibility of graph neural networks using multigraph data representation.

https://doi.org/10.1016/j.neunet.2022.01.018

代碼獲取網(wǎng)址:

https://github.com/basiralab/RG-Select



Neural Networks:使用多圖數(shù)據(jù)表征來量化圖神經(jīng)網(wǎng)絡的再現(xiàn)性的評論 (共 條)

分享到微博請遵守國家法律
西贡区| 察雅县| 乌苏市| 德令哈市| 平潭县| 西和县| 荔浦县| 班玛县| 资阳市| 大城县| 淮阳县| 加查县| 兴义市| 都昌县| 拉萨市| 浮梁县| 郯城县| 东城区| 永川市| 海兴县| 龙口市| 贵溪市| 耒阳市| 大冶市| 中方县| 吴堡县| 西藏| 南丰县| 临江市| 丘北县| 曲麻莱县| 渝中区| 德化县| 邓州市| 新兴县| 尖扎县| 天等县| 毕节市| 施甸县| 上栗县| 门头沟区|