Hum Brain Mapp:用于功能連接體指紋識別和認(rèn)知狀態(tài)解碼的高精度機(jī)器學(xué)習(xí)技術(shù)

摘要
人腦是一個復(fù)雜的網(wǎng)絡(luò),由功能和解剖上相互連接的腦區(qū)組成。越來越多的研究表明,對腦網(wǎng)絡(luò)的實(shí)證估計可能有助于發(fā)現(xiàn)疾病和認(rèn)知狀態(tài)的生物標(biāo)志物。然而,實(shí)現(xiàn)這一目標(biāo)的先決條件是腦網(wǎng)絡(luò)還必須是個體的可靠標(biāo)記。在這里,本研究利用人類連接組項(xiàng)目數(shù)據(jù),考察了被試的大腦指紋和認(rèn)知狀態(tài)。本研究的方法在識別fMRI掃描被試和對先前未見過的被試的認(rèn)知狀態(tài)進(jìn)行分類方面實(shí)現(xiàn)了高達(dá)99%的準(zhǔn)確率。更廣泛地說,本研究使用大量被試(865名)在不同認(rèn)知狀態(tài)(8種)下的fMRI功能連接數(shù)據(jù),探索了五種不同機(jī)器學(xué)習(xí)技術(shù)在個體指紋識別和認(rèn)知狀態(tài)解碼目標(biāo)上的準(zhǔn)確性和可靠性。此外,本研究還比較了16種不同的功能連接體(FC)矩陣構(gòu)建流程,以表征FC生成的不同方面對個體和任務(wù)分類準(zhǔn)確性的影響,并確定可能存在的混淆因素。
前言
功能連接是一種衡量不同腦區(qū)活動之間的統(tǒng)計依賴性指標(biāo)。實(shí)際上,它作為一種相關(guān)性度量,通常在所謂的“靜息狀態(tài)”下進(jìn)行估計,也就是說,在沒有明確任務(wù)指令的情況下進(jìn)行估計。所有神經(jīng)元素之間的全功能連接集定義了一個功能性腦網(wǎng)絡(luò),可以將其建模為節(jié)點(diǎn)(腦區(qū))和邊(功能連接權(quán)重)。大量研究表明,連接權(quán)重的變化可用于準(zhǔn)確地預(yù)測個體的認(rèn)知、臨床和發(fā)育狀態(tài)。
近年來,人們對基于網(wǎng)絡(luò)的“指紋識別”產(chǎn)生了濃厚的興趣。也就是說,使用統(tǒng)計分析來發(fā)現(xiàn)功能性大腦網(wǎng)絡(luò)的特征,這些特征能夠可靠地區(qū)分個體。先前的研究表明,功能連接體(FC)可以在fMRI掃描中提供一致的個體指紋,并以可識別的方式編碼一般認(rèn)知狀態(tài)的各個方面。然而,目前仍存在一些關(guān)鍵的方法學(xué)問題。例如,大多數(shù)研究沒有直接評估不同指紋識別算法的相對性能,也沒有詳盡地探討FC矩陣構(gòu)建流程對指紋識別的影響。
因此,本研究利用人類連接組項(xiàng)目(HCP)數(shù)據(jù)集的FCs,探索了五種不同機(jī)器學(xué)習(xí)技術(shù)在個體指紋識別和認(rèn)知狀態(tài)解碼目標(biāo)上的準(zhǔn)確性和可靠性。此外,為了表征FC生成的不同方面對個體和任務(wù)分類準(zhǔn)確性的影響,并識別可能存在的混淆因素,本研究還比較了16種不同的功能連接體(FC)矩陣構(gòu)建流程。
實(shí)驗(yàn)結(jié)果表明,一些機(jī)器學(xué)習(xí)技術(shù)在對HCP數(shù)據(jù)集中的FCs進(jìn)行個體指紋識別和任務(wù)解碼方面具有近乎完美的能力,為FCs揭示了個體及其認(rèn)知狀態(tài)的重要特征這一觀點(diǎn)提供了支持,并為未來的技術(shù)測量提供了基準(zhǔn)。這些高精度分類器的另一個好處是能夠識別FC的特征,以及大腦哪些區(qū)域之間的哪些連接是進(jìn)一步研究認(rèn)知狀態(tài)的感興趣區(qū)域。
方法
數(shù)據(jù)描述和分類目標(biāo)
數(shù)據(jù)集:原始數(shù)據(jù)集由HCP發(fā)布的865名受試者的fMRI掃描數(shù)據(jù)組成。每名受試者在7項(xiàng)活動任務(wù)(情緒、賭博、語言、運(yùn)動、關(guān)系、社會、工作記憶)中的每項(xiàng)都掃描2次,靜息態(tài)任務(wù)(休息)掃描4次,共掃描18次。為了消除因休息掃描次數(shù)過多而造成的數(shù)據(jù)不平衡的影響,實(shí)驗(yàn)期間每位受試者僅使用2次休息掃描,共計每位受試者有16次掃描。數(shù)據(jù)集中不包含任何個人身份信息。此外,通過流程從個體fMRI掃描數(shù)據(jù)中生成功能連接矩陣,該流程包括腦區(qū)分割、混淆回歸以及從fMRI時間序列框架中計算相關(guān)系數(shù)矩陣。
HCP功能預(yù)處理:HCP數(shù)據(jù)集中的圖像進(jìn)行了最小程度的預(yù)處理。簡而言之,對每個圖像的梯度失真和運(yùn)動進(jìn)行了校正,并通過樣條插值步驟與相應(yīng)的T1加權(quán)(T1w)圖像對齊。進(jìn)一步校正強(qiáng)度偏差,歸一化為均值10000,投射到32k_fs_LR網(wǎng)格,排除異常值,并使用多模態(tài)表面配準(zhǔn)對齊到公共空間。
分割預(yù)處理:設(shè)計一個由大腦皮層上200個區(qū)域組成的分區(qū),以優(yōu)化fMRI信號的局部梯度和全局相似性指標(biāo)(Schaefer200)。將分割節(jié)點(diǎn)映射到Y(jié)eo典型功能網(wǎng)絡(luò)。對于HCP數(shù)據(jù)集,Schaefer200是32k_fs_LR空間中的CIFTI文件。這些工具利用在recon-all管道中計算的表面配準(zhǔn),根據(jù)個體表面曲率和溝紋模式將組平均圖譜轉(zhuǎn)換到被試空間。這種方法為每個被試呈現(xiàn)了一個T1w空間體積。將分割重新采樣到2mm T1w空間,以便與功能數(shù)據(jù)一起使用。相同的過程也可用于其他分辨率(例如Schaefer100)。
功能網(wǎng)絡(luò)預(yù)處理:使用Nilearn的signal.clean對所有BOLD圖像進(jìn)行線性去趨勢、帶通濾波(0.008~0.08Hz)、混淆回歸和標(biāo)準(zhǔn)化處理,去除與時間過濾器正交的混淆。所采用的混淆回歸已被證明是減少運(yùn)動相關(guān)偽影的一個相對有效的選擇。經(jīng)過預(yù)處理和擾動回歸,得到各節(jié)點(diǎn)BOLD時間序列的殘差均值。
分類目標(biāo):在每個實(shí)驗(yàn)中,訓(xùn)練一個機(jī)器學(xué)習(xí)分類器以完成以下兩個目標(biāo)之一:受試者識別(指紋識別)或任務(wù)識別(解碼)。(1)指紋識別。為了實(shí)現(xiàn)這一目標(biāo),分類器同時對所有受試者的掃描進(jìn)行訓(xùn)練,每個受試者完成七項(xiàng)任務(wù),共14次掃描。對于每個受試者,從八項(xiàng)任務(wù)(包含靜息態(tài)任務(wù))中隨機(jī)選擇一項(xiàng),并保留該任務(wù)的兩次掃描作為驗(yàn)證數(shù)據(jù)集。受試者指紋分類器的準(zhǔn)確性是使用訓(xùn)練好的分類器正確預(yù)測受試者的驗(yàn)證掃描的百分比。
(2)任務(wù)解碼。對于任務(wù)解碼目標(biāo),分類器在來自受試者子集的掃描上進(jìn)行訓(xùn)練,涉及八個任務(wù),每個受試者總共掃描16次。驗(yàn)證數(shù)據(jù)集由所有任務(wù)中其余子集的掃描組成。任務(wù)解碼分類器的準(zhǔn)確性是使用訓(xùn)練好的分類器正確預(yù)測其任務(wù)的驗(yàn)證掃描的百分比。
分類器架構(gòu)
針對兩個目標(biāo)測試了五種分類器架構(gòu):
1、根據(jù)Howland和Park(2004)提出的基于廣義奇異值分解的LDA分類器,它避免了對維數(shù)遠(yuǎn)低于樣本數(shù)量的需求。對于每個類別,LDA分類器的結(jié)果為輸入向量提供了一組線性系數(shù),可用于得出有關(guān)輸入分量對于特定類別的相對重要性的結(jié)論(并生成可視化)。2、多層感知器神經(jīng)網(wǎng)絡(luò)(NN)分類器,其訓(xùn)練可以建模高階函數(shù)。3、支持向量機(jī)(SVM)分類器,一種使用高維數(shù)據(jù)進(jìn)行分類的常見機(jī)器學(xué)習(xí)方法。近年來,許多關(guān)于人腦功能連接組學(xué)的研究都將SVM作為預(yù)測工具。4、最近質(zhì)心(NC)分類器,其結(jié)果可用于對類之間的高維空間關(guān)系進(jìn)行簡單推斷。
5、基于相關(guān)性(CORR)的分類器,這是在FCs上進(jìn)行受試者指紋識別的經(jīng)典方法,已知可以在類似的數(shù)據(jù)集上獲得較高的準(zhǔn)確率。
FC矩陣構(gòu)建流程在這里,本研究考慮了經(jīng)過測試的四個矩陣構(gòu)建流程變量,以確定結(jié)果對數(shù)據(jù)準(zhǔn)備差異的穩(wěn)健性,其中包括:①有無全局信號回歸:通過線性回歸去除fMRI時間序列的平均信號強(qiáng)度。②有無任務(wù)回歸:去除任務(wù)誘發(fā)激活的一階效應(yīng)。③Schaefer-Yeo 100與200分區(qū):大腦圖譜中產(chǎn)生FCs的區(qū)域數(shù)量。
④截斷剩余掃描時間序列幀,以與較短的任務(wù)掃描長度保持一致。
整個流程如圖1所示。

結(jié)果
分類器精度LDA分類器
LDA分類器在兩個目標(biāo)和大多數(shù)矩陣構(gòu)建流程中都獲得了較高的準(zhǔn)確率(見表1)??傮w而言,它似乎比NN分類器對矩陣構(gòu)建流程變化的影響更敏感。

從LDA分類器獲得的系數(shù)(圖3)通過對分類的輸入特征重要性進(jìn)行相對加權(quán),為類區(qū)分的方法提供了一些驗(yàn)證。將輸入特征映射到已知的大腦系統(tǒng)標(biāo)簽,可用于驗(yàn)證分類器是否“注意”與特定類別任務(wù)關(guān)聯(lián)的腦區(qū)特征。
前饋神經(jīng)網(wǎng)絡(luò)(NN)分類器
表1還顯示,在任務(wù)解碼目標(biāo)上,NN分類器比LDA分類器實(shí)現(xiàn)了更高和更一致的精度。然而,NN分類器在受試者指紋識別目標(biāo)上的表現(xiàn)明顯更差,這可以通過更好地選擇NN超參數(shù)(更大或更多的隱藏層,不同的學(xué)習(xí)率,不同的激活函數(shù)等)、通過選擇另一種NN架構(gòu)或使用更大的數(shù)據(jù)集進(jìn)行訓(xùn)練來改善。
例如,Wang等人(2019)使用DNN架構(gòu)在七個任務(wù)中的類似任務(wù)解碼目標(biāo)上能夠達(dá)到94%的準(zhǔn)確率。他們的DNN是基于原始fMRI數(shù)據(jù)作為輸入的卷積。本研究的簡單三層神經(jīng)網(wǎng)絡(luò)能夠在FCs輸入維數(shù)顯著降低的情況下獲得更好的精度,這表明這種深度神經(jīng)網(wǎng)絡(luò)對于穩(wěn)健的結(jié)果可能不是必要的。此外,雖然Wang等人的結(jié)果發(fā)現(xiàn)使用DNN的某些任務(wù)比其他任務(wù)更容易解碼,但本研究的NN分類器在不同任務(wù)之間的分類精度基本上沒有差異。
支持向量機(jī)(SVM)分類器與LDA分類器和NN分類器相比,SVM分類器在任務(wù)解碼目標(biāo)上實(shí)現(xiàn)了所有架構(gòu)中最高且最一致的精度分?jǐn)?shù)(見圖2),其結(jié)果比LDA分類器和NN分類器對矩陣構(gòu)建流程的變化更穩(wěn)健。

在受試者指紋識別目標(biāo)上,SVM分類器的精度明顯低于LDA和NN分類器,并且對矩陣構(gòu)建流程表現(xiàn)出顯著的敏感性。
NC分類器
NC分類器在目標(biāo)和所有矩陣構(gòu)建流程上的性能都相對較差;然而,它仍然達(dá)到了足夠高的精度水平,可以得出一些關(guān)于數(shù)據(jù)集性質(zhì)的結(jié)論。在任務(wù)解碼方面,一些矩陣構(gòu)建流程的精度高達(dá)90%。鑒于NC分類器中兩個連接組之間的相似性度量為L2范數(shù),具有相對較高精度的結(jié)果表明該數(shù)據(jù)集在高維空間中表現(xiàn)出類的聚類特性。相對于其他分類器,NC分類器在個體指紋識別上的結(jié)果同樣不理想;然而,能夠在大約一半的時間內(nèi)正確識別出865名受試者(僅使用L2范數(shù)),再次表明與個體受試者相關(guān)的掃描具有相對較強(qiáng)的空間聚類。
相關(guān)分類器
Finn等人(2015)通過計算目標(biāo)掃描和測試矩陣數(shù)據(jù)庫之間的Pearson相關(guān)系數(shù),獲得了較高的個體識別準(zhǔn)確性。它們使用Shen 268個節(jié)點(diǎn)的功能分區(qū),對來自HCP數(shù)據(jù)集中的126名受試者進(jìn)行了測試,受試者識別目標(biāo)限定在單一任務(wù)掃描的測試數(shù)據(jù)庫。只有當(dāng)目標(biāo)矩陣和測試矩陣數(shù)據(jù)庫均來自休息任務(wù)時(即rest→rest),才能達(dá)到最高準(zhǔn)確率(93%),而其他任務(wù)組合的準(zhǔn)確率較低(例如rest→other)。此外,他們指出識別準(zhǔn)確性對分割的選擇很敏感。例如,當(dāng)使用68個節(jié)點(diǎn)的FreeSurfer-Yeo圖譜時,他們在rest→rest受試者識別上達(dá)到了89%的準(zhǔn)確率。為了重現(xiàn)他們的結(jié)果,使用來自本研究數(shù)據(jù)集的126名隨機(jī)受試者,使用200個節(jié)點(diǎn)的Schaefer-Yeo圖譜,在基于相關(guān)性的識別rest→rest掃描方面獲得的最高準(zhǔn)確率為81%。最后,為了充分比較CORR分類器與LDA分類器的結(jié)果,將該技術(shù)推廣到本研究的完整數(shù)據(jù)集和與任務(wù)無關(guān)的識別。使用779名受試者和rest→rest任務(wù)目標(biāo),準(zhǔn)確率降至73%。使用779名受試者和any→all任務(wù)目標(biāo),最高準(zhǔn)確率降至20%(圖1)。
LDA特征對認(rèn)知狀態(tài)解碼的重要性下列可視化圖像(見圖3)顯示了個體連接組特征與特定認(rèn)知狀態(tài)之間的相關(guān)性,作為從LDA分類器獲得的系數(shù)的函數(shù)。

訓(xùn)練/驗(yàn)證分割對LDA分類器的影響LDA分類器的精度對于訓(xùn)練集中合理減少的掃描次數(shù)似乎具有穩(wěn)健性(見圖4)。然而,任務(wù)解碼分類器在僅對五名受試者(共80次掃描)進(jìn)行訓(xùn)練后保持近80%的精度,而指紋分類器要達(dá)到約80%的類似精度需要至少兩個任務(wù)的訓(xùn)練集(3460次掃描)。

模塊化和中心性最近,人們對FC研究中純圖論指標(biāo)的性能產(chǎn)生了濃厚的興趣。作為比較,本研究考察了使用模塊化和中心性指標(biāo)(而不是連接組邊權(quán)重)作為兩項(xiàng)任務(wù)中性能最佳分類器架構(gòu)的輸入。從200個區(qū)域中,使用Louvain社區(qū)檢測和不對稱的負(fù)權(quán)重參數(shù)來計算社區(qū)結(jié)構(gòu)。從該社區(qū)中,計算每個腦區(qū)的參與系數(shù),并將正、負(fù)參與系數(shù)連接作為LDA或NN分類器的輸入(n=400個特征)。圖5顯示了參與系數(shù)法和邊權(quán)重法之間的比較。在個體指紋識別和任務(wù)分類目標(biāo)中,使用連接體邊權(quán)重作為輸入比參與系數(shù)具有更好的準(zhǔn)確率。

FC矩陣構(gòu)建流程全局信號回歸(GSR)靜息態(tài)功能連接MRI研究數(shù)量快速增長,數(shù)據(jù)處理的方法也在不斷增加。其中一種處理方法是GSR,雖然有時存在爭議,但它也有幾個既定的好處。對于所有受試者,GSR的準(zhǔn)確率分?jǐn)?shù)要么非常類似于沒有GSR的流線,要么分?jǐn)?shù)略高,但有一個例外:在任務(wù)解碼目標(biāo)的NN分類器上,GSR的分?jǐn)?shù)總體上明顯更高(見圖6)。

分割大小100個區(qū)域和200個區(qū)域的分割產(chǎn)生了相似的精度分?jǐn)?shù),100-區(qū)域在所有流程和架構(gòu)中的精度分?jǐn)?shù)略低,但有一個例外:對于任務(wù)解碼目標(biāo)的LDA分類器,100-區(qū)域的分割在所有流程中的精度略高(圖7)。除此之外,由于200分區(qū)實(shí)際上包含了100分區(qū)作為其特征的“子集”,因此精度的略微下降并不奇怪。

時間序列截斷截斷是一個重要的步驟,一般來說,較短的樣本會導(dǎo)致連通性估計中的采樣誤差越大。為了確保樣本數(shù)量具有可比性,本研究測試了時間序列的截斷,以在所有樣本中保持大致相同的幀數(shù)??傮w而言,截斷其余掃描時間序列以匹配任務(wù)掃描似乎會導(dǎo)致所有流程和分類器架構(gòu)的精度略有下降(圖8)。與200分區(qū)相比,100分區(qū)的不利影響要明顯得多。

任務(wù)回歸在所有測試中,使用任務(wù)回歸的流程比不使用任務(wù)回歸的流程分類精度更差(圖9)。在任務(wù)分類目標(biāo)中,回歸旨在消除與每項(xiàng)任務(wù)相關(guān)但不是真正測量腦區(qū)活動的混淆因素。這些特定于任務(wù)的混淆的存在可能使任務(wù)區(qū)分更加容易,而去除它們可能會使任務(wù)解碼變得更加困難。

特征選擇本研究考察了三種特征選擇方法,以識別FC的邊緣:方差閾值:無監(jiān)督方法,其中整個數(shù)據(jù)集中給定特征的方差用作其判別能力的度量,最重要的特征被認(rèn)為是那些具有最高方差的特征。SPEC:無監(jiān)督方法,使用圖譜分析來識別對維持?jǐn)?shù)據(jù)集的空間聚類屬性最重要的特征。
LDA系數(shù):有監(jiān)督方法,將一個給定特征在所有類別中的系數(shù)均值作為其判別能力的度量,最重要的特征被認(rèn)為是那些系數(shù)均值最大的特征。
這三種特征選擇方法都對輸入特征進(jìn)行了簡單的優(yōu)先級排序,除了確定要保留多少個“最重要”特征的閾值外,沒有其他參數(shù)。將每種方法應(yīng)用于整個數(shù)據(jù)集,然后使用最高精度矩陣構(gòu)建流程(200個區(qū)域,w/GReg,noTReg)來測試特征縮減的FCs的準(zhǔn)確性。特征選擇實(shí)驗(yàn)的結(jié)果表明(圖10),僅使用原始19900個特征(在200分區(qū)的情況下)中的幾百個特征(即連接組的邊),就可以在指紋識別和解碼目標(biāo)中保持高精度性能。

特別是,對于任何單個特征選擇方法,從SPEC中獲得的特征排序似乎在指紋識別和解碼目標(biāo)之間提供了高精度的最佳平衡——僅用~200個特征就達(dá)到了90%的精度。
與從SPEC獲得的最高排序特征相關(guān)的大腦系統(tǒng)(圖11)似乎在某種程度上平衡了方差閾值(DorsAttnA、DorsAttnB、VisCent、VisPeri)的最高排序特征,方差閾值對解碼具有最佳的整體性能,而LDA指紋識別系數(shù)(ContA、ContB、DefaultA、DefaultB)具有最佳的指紋識別整體性能。

高維聚類作為評估類別(單個受試者或任務(wù))在高維空間中表現(xiàn)出聚類程度的另一種方法,本研究對數(shù)據(jù)集執(zhí)行了PCA,將其降至50維,然后使用t-SNE進(jìn)行二維可視化(圖12)。

本研究還計算了所有樣本對的平均類內(nèi)(組內(nèi))和類間(組間)距離,掃描按受試者或任務(wù)分組,作為聚類的簡單度量(表2)。結(jié)果表明,按任務(wù)或受試者分組掃描的平均類內(nèi)距離小于類間距離。

結(jié)論
本研究結(jié)果表明,一些機(jī)器學(xué)習(xí)技術(shù)和矩陣構(gòu)建流程可以從FCs實(shí)現(xiàn)高精度的個體指紋識別和任務(wù)解碼。在大量受試者中進(jìn)行個體指紋識別時,LDA分類器提供了最高和最一致的精度分?jǐn)?shù)。在任務(wù)解碼中,LDA、NN和SVM分類器的性能相似,但SVM在所有流程中略有優(yōu)勢。與較高的分類精度分?jǐn)?shù)最一致的流程是:更精細(xì)的分區(qū)(更多的腦區(qū))、使用GSR、無任務(wù)回歸以及不使用時間序列截斷。在未來的應(yīng)用中,當(dāng)決定使用哪種矩陣構(gòu)建流程時,需要注意的是,雖然更精細(xì)的分區(qū)(更多的腦區(qū))似乎能夠提高精度,但給定掃描的特征數(shù)量會隨著區(qū)域數(shù)量的平方而增加。這意味著更精細(xì)的分區(qū)雖然提高了精度,但可能會使分類器的訓(xùn)練成本顯著增加。這里實(shí)現(xiàn)的高精度得益于HCP數(shù)據(jù)集,該數(shù)據(jù)集具有較高的一致性標(biāo)準(zhǔn)。未來的工作應(yīng)該研究這些結(jié)果是否對來自其他數(shù)據(jù)集的掃描數(shù)據(jù)具有穩(wěn)健性。
參考文獻(xiàn):Andrew Hannum, Mario A. Lopez. et al. High-accuracy machine learning techniques for functional connectome fingerprinting and cognitive state decoding. Hum Brain Mapp.2023;1-15.
小伙伴們關(guān)注茗創(chuàng)科技,將第一時間收到精彩內(nèi)容推送哦~
