連接組學中的機器學習:從表征學習到模型擬合

前言
機器學習(ML)由于其高自動化程度、高靈敏度和特異性優(yōu)勢,在醫(yī)學影像領域取得了巨大的成功。由于具備這些優(yōu)勢,機器學習已被廣泛應用于神經(jīng)成像數(shù)據(jù),目的是提取與感興趣變量(如疾病狀態(tài))相關的特征。這使我們能夠形成關于不同條件下大腦結構和功能的詳細地圖,以數(shù)據(jù)驅動的方式發(fā)現(xiàn)新知識。
與傳統(tǒng)的數(shù)據(jù)驅動方法(如大規(guī)模單變量分析)相比,機器學習方法具有兩個重要優(yōu)勢。首先,機器學習方法通過檢查橫跨整個圖像領域的元素之間的統(tǒng)計關系,充分利用了高維數(shù)據(jù)的潛力。盡管存在正常變化,但通過利用所有圖像位置的信息,機器學習方法能夠準確地識別和測量由疾病或藥物干預引起的腦部細微且空間復雜的結構和功能變化。
其次,機器學習方法能夠在個體水平上進行預測。相比之下,大規(guī)模單變量分析只能在組水平上進行推斷,估計最能區(qū)分兩組的模式或預測感興趣的變量,從而基本上描述的是組平均數(shù)據(jù)。然而,這并不能滿足通過改進疾病篩查和診斷來實現(xiàn)精準醫(yī)療所需的個性化預測需求。
總的來說,這些優(yōu)勢推動了機器學習在多種腦部疾病研究中的應用。這導致了能夠量化患病風險或追蹤其進展的敏感生物標志物的構建。這些基于機器學習的生物標志物還允許研究臨床試驗中藥物干預的效果,并在可測量的臨床效果出現(xiàn)之前提供患者特異性診斷。這方面的早期工作主要涉及結構磁共振成像(MRI)數(shù)據(jù)上的機器學習應用。這是由于此類數(shù)據(jù)更易獲取,并且具有歐氏結構,因而在計算機視覺領域中較為常見。隨著網(wǎng)絡科學和圖論的發(fā)展,以及大腦作為一個高度復雜且相互連接網(wǎng)絡的概念化,機器學習在連接組學上的應用越來越受到關注。盡管如此,機器學習在連接組學上的應用并不那么簡單。這是由于數(shù)據(jù)的非歐氏性質,因而需要適當?shù)奶幚矸椒ā?/p>
方法
本節(jié)詳細闡述了如圖1所示的連接組學中ML工作流的步驟3和步驟4。由于連接組學數(shù)據(jù)的非歐氏性質使其與傳統(tǒng)的機器學習算法結合使用并不容易。因此,本文討論了將圖形轉化為適合機器學習方法輸入的方式。但有時會根據(jù)圖譜或個體水平的分區(qū)來構建連接組,因而可能會得到不同數(shù)量節(jié)點的單個圖(在后一種情況下)。在這里,本文將重點介紹適用于圖形約束的方法,該類圖形在總體中具有唯一的節(jié)點排序。在這類圖形中,所有圖實例的頂點數(shù)量是固定的,并且頂點集的順序也是固定的(稱為固定基數(shù)頂點序列)。進一步假設邊緣標記函數(shù)是標量,并且圖形是無向的,這意味著鄰接矩陣是對稱的。

用特征向量概括圖形
根據(jù)用于解決特定問題的機器學習算法的不同,圖形實例可能需要映射到一個d維向量中。當算法只能處理實值特征向量時,就需要進行這種映射。在腦圖中,我們通常對保留邊緣標簽信息感興趣,一旦獲得連接矩陣的向量表征,就可以應用任何需要標量輸入特征的傳統(tǒng)機器學習算法。通過直接嵌入,提供一個固定的基數(shù)頂點序列,鄰接矩陣的上三角元素可以很容易地表示為一個特征向量,只要它們表示的連接在所有圖實例中保持一致。這種非常簡單的嵌入結合了圖的全局和局部特征,因為它在為整個圖捕獲這些信息的同時保留了原始的邊緣標簽。邊緣中包含的判別信息可以在腦連接圖中進一步定位和可視化。
然而,這種方法部分地忽略了局部或全局的高級結構特征,這些特征在某些應用中尤其重要。另一個局限性是它們考慮了與所有腦區(qū)域的所有連接,即使其中一些連接可能對于解決問題來說是“不相關的”(即不具有判別性),而不是只包含最相關連接的子集。因此,它們產(chǎn)生了非常高維的特征表示,這會加劇在小樣本研究中的過擬合問題。這將需要某種形式的降維、正則化、大量樣本或以上所有方法,以確保該方法可以推廣到其他人群。在有助于捕捉這些全局特征的情況下,可以用圖屬性向量來概括實例。這些屬性通常包括平均聚類系數(shù)和特征路徑長度,而更局部的特征可能包括對應于感興趣腦區(qū)的節(jié)點強度。最近,一些更先進的技術,如node2vec,已被用于獲得反映結構和功能連接的圖嵌入,并表現(xiàn)出很高的預測能力。
降維
降維方法通常用于通過將輸入數(shù)據(jù)映射到捕獲數(shù)據(jù)“本質”的子空間來獲得較低維的特征表示。這一步有助于泛化并降低計算復雜度,并且常常在模型擬合之前應用。高維函數(shù)往往比低維函數(shù)更復雜,而且這些復雜的模式更難辨別。在機器學習模型中,較少的輸入維度通常意味著更少的參數(shù)(稱為自由度)或更簡單的結構。具有太多自由度的模型可能會過度擬合訓練數(shù)據(jù),因此可能在新的未知數(shù)據(jù)上表現(xiàn)不佳,而這正是我們最終關心的問題。
主成分分析(PCA)是最常用的降維方法之一。PCA通過線性變換到新坐標系來尋求數(shù)據(jù)變化的主要方向。將原始數(shù)據(jù)映射到這個坐標系的第一維上,可以捕獲數(shù)據(jù)的最大方差,第二維上是次大方差,以此類推。每個維度(由向量i描述)都需要與前面的(i-1)維度正交。PCA常用于降維,并使用奇異值分解將數(shù)據(jù)映射到低維空間。然而,它不能很好地適應維數(shù)遠高于樣本數(shù)量的問題。
另一種降維方法是RFE(遞歸特征消除)。這是一種迭代方法,可在訓練集上訓練嶺分類器,并保留在每一步中幸存下來的原始特征向量的維度。在每次迭代中,分類器的系數(shù)用于對特征的重要性進行排序(系數(shù)越高表示重要性越高),同時從特征向量中剪除辨別性最小的維度。與PCA相比,該方法在連接組學應用中可以產(chǎn)生更好的結果,但由于每次迭代都需要訓練一個新的分類器,因此成本往往更高。
與PCA(定義不相關特征向量的正交坐標系)不同,獨立成分分析(ICA)旨在尋找非高斯數(shù)據(jù)的線性表示,使各成分在統(tǒng)計上相互獨立,或者盡可能獨立。在較高的層次上,主成分分析(PCA)旨在壓縮信息并降低信號的維數(shù),而ICA旨在將信息分離為有意義的成分,并用于重建信號。因此,ICA更常用于腦區(qū)劃分,而PCA用于在將大腦信號輸入機器學習模型之前降低維度、減少計算量并緩解過擬合。其他用于連接組數(shù)據(jù)的降維方法包括多維縮放(MDS)和局部線性嵌入(LLE)。MDS通常將點之間的距離(或相似性)矩陣作為輸入,旨在恢復保留這些距離的輸入的低維表征。它通常用于根據(jù)成對距離矩陣生成數(shù)據(jù)點的二維可視化(例如在度量學習中)。如果該距離對應于歐氏距離,則經(jīng)典MDS的結果等價于PCA。而LLE是一種非線性降維技術,可保留用戶指定大小的局部鄰域內的距離。
圖核
圖核是一種核函數(shù),通過捕捉圖結構中的內在語義來計算兩個圖之間的內積。內積是一種將兩個向量相乘的方法,乘積的結果是標量,并且通常被認為是這些向量之間的相似性度量。這個內積是在與輸入圖對的原始空間不同的特征空間中計算的。理想情況下,圖核應該對個體差異具有穩(wěn)健性,并可以應用于結構和功能腦網(wǎng)絡。R-卷積核比較由相似部分組成的兩個結構化對象的分解。分解過程遞歸地重復,直到產(chǎn)生原子成分。最后,將每個部分的相似性度量值聚合,得到一個標量。因此,圖核是一對圖的卷積核,一個新的分解關系R會產(chǎn)生一個新的圖核。
一種常用的類型是隨機游走核,它計算兩個圖中相同隨機游走序列的數(shù)量。游走是節(jié)點序列,其中某些節(jié)點可以重復訪問。長度k的游走可以通過鄰接矩陣的k次冪來計算。然而,這些操作的計算量非常大,而節(jié)點重復可能會導致內核值增長到非常大的值。最短路徑核旨在通過計算輸入圖中所有節(jié)點對之間的最短路徑長度來緩解這些問題(在路徑中,不允許節(jié)點重復)。
除了基于游走和路徑的方法,基于子樹的核也已用于連接組學研究。子樹是從圖中提取的子圖,其中不存在循環(huán),也就是說,任意一對節(jié)點都可以通過一條簡單的路徑相連。Weisfeiler-Lehman子樹核就是這樣一種方法,它基于Weisfeiler-Lehman圖同構檢驗,采用了一種有效的方法來構造圖核。
機器學習中的線性方法
支持向量機(SVM)是基于一組d維向量,試圖找出表示兩個類別之間最大間距或距離的(d-1)維超平面。超平面定義為一個比它所在環(huán)境空間維數(shù)小1的子空間,它將該空間分為兩個部分。例如,在二維空間中,一條線就是一個超平面。同樣地,如果空間是三維的,那么它的超平面就是二維平面。在SVM中,選擇超平面的方式是使得每個類別最近數(shù)據(jù)點的距離最大化。如果存在這樣的超平面,則稱為最大間隔超平面。SVMs的主要優(yōu)勢之一是在高維空間和維數(shù)大于樣本數(shù)的情況下的效率較高。此外,SVM的存儲效率很高,因為它只使用決策函數(shù)中訓練點的一個子集,即所謂的支持向量。SVM在連接組學應用中的最重要特征是其靈活性,即可以使用不同的核函數(shù)作為決策函數(shù),例如上文所提到的隨機游走核或Weisfeiler-Lehman子樹核。多核也可以與多核SVM結合使用,多核SVM可以表示為基核的線性組合。
嶺分類是連接組學中常用的另一種方法。該方法適用于擬合具有多重共線性的多元回歸數(shù)據(jù)。在這種現(xiàn)象中,一個預測變量(即輸入特征)可以通過其他預測變量進行高精度的線性預測。連接組數(shù)據(jù)通常可以證明這種行為,特別是在其高維形式中,因為通常有比觀測值(即受試者)更多的變量(例如邊緣)。嶺回歸或Tikhonov正則化通過在相關矩陣的對角元素上添加一個小值λ來解決這個問題。當λ=0時,嶺估計器簡化為普通最小二乘法。
深度學習
深度學習在計算機視覺和醫(yī)學成像應用中取得了許多成功,包括圖像分割和分類,以及更復雜的任務,如地標定位和疾病結果預測。深度學習算法已經(jīng)被證明可以學習輸入特征的復雜非線性函數(shù),并捕獲歐氏空間中的分層模式(如圖像像素和體素網(wǎng)格)。這些技術的“深度”方面是指其“堆疊”濾波器(卷積或全連接)的關鍵特征,以捕獲不同空間尺度上的判別模式。盡管這些算法在歐氏空間中取得了成功,但它們在圖形中,特別是腦圖上的應用并不簡單。首先,與圖像體素不同,并非每個節(jié)點都具有相同數(shù)量的相鄰節(jié)點。此外,相鄰節(jié)點的排列不是固定的,即沒有左/右等概念。
因此,在最近的宏連接組計算工作中,用于圖的深度學習方法引起了很多關注。其中一個例子是BrainNetCN,該框架包括邊到邊、邊到節(jié)點和圖像體素等。前兩個操作類似于局部聚合器,而最后一個操作則類似于全局聚合器。具體而言,邊到邊的圖層計算濾波器映射,其值對應于相鄰邊的加權和。在訓練過程中學習這些濾波器映射(以及跨層)的權重。邊到節(jié)點的層降低了原始輸入的空間維度,并將輸入邊的隱藏表征聚合為節(jié)點表征。最后,節(jié)點到圖層的作用類似于全局聚合器,并估計隱藏節(jié)點表征的加權和,以產(chǎn)生單個標量值。這種設置在需要為每個連接組生成單個預測的情況下非常方便(無論是用于分類問題還是回歸問題)。
在連接組學領域廣泛使用的另一種深度學習方法是圖卷積網(wǎng)絡,特別是ChebNet。與在圖空間域中進行濾波的BrainNetCNN不同,ChebNet的原理來自Shuman等人(2013)的圖譜理論。這表明學習到的濾波器是基于拉普拉斯連接矩陣進行參數(shù)化的。拉普拉斯矩陣定義為L=D-A,其中D為度矩陣,A為鄰接矩陣。這種方法被用于兩種不同的設置:在轉導設置中,總體被表示為一個圖,其中每個個體對應于該圖中的一個節(jié)點,該節(jié)點與節(jié)點特征向量相關聯(lián),這本質上是連接組的嵌入。在歸納設置中,ChebNet可以直接應用于個體的連接組圖上,唯一的限制是需要在樣本之間保持圖結構。Ktena等人(2018)解決此問題的方式是計算總體平均連接矩陣,并將大腦節(jié)點的連接特征作為特征向量。
評估指標
根據(jù)目標應用(即分類與回歸)的不同,我們常用和報告的評估指標會有所不同。在分類設置中,我們對分類準確率感興趣,通常將其報告為所有測試樣本(與類別無關)中正確預測的百分比。此外,在分類應用中,通常會報告模型的精度、召回率、敏感度和特異度。精度是指真陽性(例如,識別患者狀態(tài))與所有陽性預測數(shù)量的比值,即:

召回率(或敏感度)是指真陽性與真陽性和假陰性之和的比率,即:

圖2顯示了不同分類器可能在精度和召回率之間的權衡。特異度是指真陰性預測占所有陰性樣本的比率,即:


在疾病預測中,我們特別關注在不影響特異性的情況下實現(xiàn)高敏感度,因為檢測盡可能高的陽性率非常重要。另一個經(jīng)常報告的指標是受試者工作特征曲線下面積(ROC-AUC)。ROC曲線反映了敏感度和假陽性率(等于1-特異度)之間的關系。AUC的值越高,分類器的質量越好,因為提高敏感度不會增加假陽性率。然而,當測試數(shù)據(jù)集存在嚴重的類別不平衡時,精度-召回率曲線下面積(PRAUC)被證明比ROC-AUC具有更大的信息量。在這種情況下,F(xiàn)1分數(shù)等指標也常被使用。

在回歸應用中,最常用的指標包括平均絕對誤差(MAE)、均方誤差(MSE)和皮爾遜相關系數(shù)。MAE和MSE之間的主要區(qū)別在于MSE會對誤差較大的情況進行更大的懲罰,因此適用于對誤差較為敏感的情況。皮爾遜相關系數(shù)測量了預測得分和真實得分之間的線性關系,因此對輸入數(shù)據(jù)的分布影響較小,但不能揭示回歸模型可能存在的潛在偏差,即預測值過高或過低。
在分類和回歸應用中,最好報告上述指標在不同情況下的均值和標準差,因為這可確保指標盡可能無偏,并反映分類器或回歸器的真實性能。
限制
將機器學習(ML)應用于連接組學是具有挑戰(zhàn)性的。在應用ML算法并評估其結果時,應考慮以下局限性。首先,ML性能高度依賴于算法所接收到的輸入數(shù)據(jù)的質量,無論是傳統(tǒng)機器學習還是深度學習技術都是如此。為了確保準確的訓練和有意義的預測,需要對數(shù)據(jù)進行仔細的預處理和全面的數(shù)據(jù)質量檢查。對于由fMRI和dMRI生成的連接組來說尤其如此。特別是掃描期間的頭動已被證明對功能和結構連接的多個測量指標有著顯著影響。在fMRI和dMRI中,已經(jīng)研究了幾種減輕運動效應的策略。然而,由于缺乏真實標準,很難確定頭動對測量的影響程度。這在特定人群(例如兒童或患者)中的影響可能更大。因而會極大地混淆感興趣的效應并限制了檢測到真正信號的能力。
混淆變化是限制機器學習模型泛化能力的一個重要挑戰(zhàn)。機器學習模型在檢測數(shù)據(jù)細微模式方面表現(xiàn)出更高的敏感性。然而,這往往會導致模型專注于學習數(shù)據(jù)中的混淆變化,例如由于圖像采集參數(shù)(如掃描儀強度或序列)而引起的信號變化。這限制了它們適應不同環(huán)境中收集新數(shù)據(jù)的能力,從而降低了可重復性。這在處理多站點數(shù)據(jù)時尤其成問題,因為多站點數(shù)據(jù)是增加樣本量的必要手段。
掃描儀之間的差異并不是導致數(shù)據(jù)偏差的唯一原因。訓練數(shù)據(jù)通常包含性別、種族和文化偏差。機器學習方法不僅會繼承這種偏差,而且往往會放大這種偏差。防止?jié)撛谄畹囊粋€重要保障是模型的可解釋性。機器學習和深度學習模型通常被視為分析高維神經(jīng)成像數(shù)據(jù)并將其壓縮為特定個體疾病指標的“黑匣子”。雖然該指標具有重要的診斷和預后價值,但它并不能告訴我們每個大腦連接或區(qū)域是如何影響這一決策的。然而,對于臨床醫(yī)生和研究人員來說,能夠理解模型是如何做出這樣的決策是非常重要的。這將使得自動化系統(tǒng)對人類專家的驗證透明化,從而能夠檢查任何潛在的偏倚。重要的是,它能夠提取關于不同大腦系統(tǒng)對不同病理的選擇性易感性的新知識,從而闡明疾病機制,為更有效的治療鋪平道路。因此,越來越多的研究集中在開發(fā)用于解釋神經(jīng)成像中ML模型的方法和協(xié)議上。
最后,訓練、驗證和機器學習方法所面臨的一個重大挑戰(zhàn)是大型數(shù)據(jù)集的處理?,F(xiàn)有的神經(jīng)成像數(shù)據(jù)共享計劃(如自閉癥腦成像數(shù)據(jù)庫(ABIDE)、開放獲取系列成像研究(OASIS)和英國生物銀行)對于支持機器學習研究至關重要,但還需要更多的努力來實現(xiàn)機器學習工具的廣泛實施和使用。
建議
在連接組學中應用機器學習的一個重要環(huán)節(jié)是測量模型的預測能力。值得注意的是,不能使用相同的數(shù)據(jù)來訓練和測試模型以評估模型的預測能力。這是因為機器學習模型常常會通過學習特定樣本的噪聲來過擬合訓練數(shù)據(jù),導致模型預測結果過高,從而不利于得出有效的結論。因此,樣本內測量結果不能作為預測準確性的證據(jù)。相反,應該使用單獨的數(shù)據(jù)集來測試模型。
然而,由于神經(jīng)成像數(shù)據(jù)的可用性有限,可能無法使用單獨的測試集。為此,可以采用k折交叉驗證的方法。這是一個將數(shù)據(jù)劃分為用戶指定數(shù)量(k個)子集(折)的過程。每個子集被用作測試集,用來評估使用其他子集訓練的模型的性能。通過對所有子集進行迭代,可以通過平均所有試次的誤差來估計模型的有效性。在其最簡單的形式中,每個數(shù)據(jù)點都被視為一個子集,這就是所謂的留一法交叉驗證。這種方法的優(yōu)點是提供了充足的訓練數(shù)據(jù)。然而,測試集并不能代表整個數(shù)據(jù)集,估計結果通常不穩(wěn)定且有偏差。因此,最好是將數(shù)據(jù)分割成更大的子集,通常占數(shù)據(jù)的10%-20%(即10折或5折交叉驗證)。重復隨機劃分可以獲得更準確的預測能力測量。
實施交叉驗證并不總是那么簡單。我們應該確保每個折都代表了數(shù)據(jù)的所有層。對于數(shù)據(jù)不平衡的情況,這尤為具有挑戰(zhàn)性。在這種情況下,應使用分層交叉驗證來確保在各個折中給定分類值的觀測比例相似。此外,應適當加權觀測數(shù)據(jù)以減少選擇偏差。需要注意的是,當類別不平衡時,標準指標(如分類精度)變得不可靠。在這種情況下,應優(yōu)先報告精度-召回率曲線和F1測量值。
最后,在實施交叉驗證時需要記住的是,應該避免將信息從測試數(shù)據(jù)泄漏到訓練數(shù)據(jù)。這意味著模型應該在獨立于測試集的訓練集上進行訓練。否則,對預測能力的估計可能會過于樂觀。
總的來說,在連接組學中應用機器學習時需要注意以下事項:

參考文獻:Sofia Ira Ktena, Aristeidis Sotiras, Enzo Ferrante, Machine learning in connectomics: from representation learning to model fitting, 2023, P267-287.
小伙伴們關注茗創(chuàng)科技,將第一時間收到精彩內容推送哦~
