Biological Psychiatry:人腦轉(zhuǎn)錄組成像的最佳實(shí)踐

導(dǎo)讀
現(xiàn)代全腦轉(zhuǎn)錄圖譜為研究大腦組織的分子相關(guān)性提供了前所未有的機(jī)會(huì),這些分子相關(guān)性通過(guò)非侵入性神經(jīng)成像進(jìn)行量化分析。然而,將神經(jīng)成像數(shù)據(jù)與轉(zhuǎn)錄組測(cè)量相結(jié)合并非易事,需要仔細(xì)考慮才能做出有效的推斷。本文回顧了最近的研究工作,探索了不同方法選擇如何影響成像轉(zhuǎn)錄組分析的三個(gè)主要階段,包括①轉(zhuǎn)錄圖譜數(shù)據(jù)的處理;②將轉(zhuǎn)錄測(cè)量與獨(dú)立衍生的神經(jīng)影像學(xué)表型聯(lián)系起來(lái);③通過(guò)基因富集分析評(píng)估已識(shí)別關(guān)聯(lián)的功能意義。本研究的目標(biāo)是促進(jìn)這一快速發(fā)展的領(lǐng)域開(kāi)發(fā)標(biāo)準(zhǔn)化和可重復(fù)的方法。本文確定了方法可變性的來(lái)源、可能影響研究結(jié)果的關(guān)鍵選擇,以及減少假陽(yáng)性或虛假結(jié)果的考慮因素。最后,本文提供了在所有三個(gè)分析階段中實(shí)現(xiàn)當(dāng)前最佳實(shí)踐過(guò)程的免費(fèi)開(kāi)源工具箱和人腦轉(zhuǎn)錄組數(shù)據(jù)庫(kù)資源。
前言
精神疾病通常表現(xiàn)為大腦連接障礙。磁共振成像為研究人員提供了一種強(qiáng)大的工具,用于繪制一系列不同疾病中大腦連接障礙的各個(gè)方面,但神經(jīng)成像本身無(wú)法揭示這些中斷的潛在分子機(jī)制。一個(gè)富有成效的方法是研究神經(jīng)成像衍生的連接組表型的遺傳基礎(chǔ)。隨著大腦發(fā)育,分子梯度在引導(dǎo)軸突到達(dá)其靶點(diǎn)方面起著關(guān)鍵作用,而大腦結(jié)構(gòu)和功能的許多方面,包括大腦連接,都顯示出一定程度的遺傳性。因此,確定與精神疾病有關(guān)的連接組表型的遺傳驅(qū)動(dòng)因素可能為了解支撐大腦組織的復(fù)雜分子機(jī)制提供了一扇窗。
在這種情況下,影像遺傳學(xué)的主要方法涉及通過(guò)遺傳關(guān)聯(lián)研究將某些連接組或其他表型的表型變體與DNA的結(jié)構(gòu)變體聯(lián)系起來(lái)。雖然這種方法可用于識(shí)別與表型相關(guān)的單核苷酸多態(tài)性,但不能保證相關(guān)變體在驅(qū)動(dòng)表型變異性中起因果作用,因?yàn)樗赡芘c實(shí)際的因果變體存在連鎖不平衡狀態(tài)。在許多情況下,如果不進(jìn)一步研究,可能也很難知道變體對(duì)基因表達(dá)的分子效應(yīng)。雖然直接分析轉(zhuǎn)錄活性的研究可能會(huì)揭示與病理生理學(xué)更密切相關(guān)的分子過(guò)程,但它們歷來(lái)僅應(yīng)用于相對(duì)較小的組織塊,因此很難將這些測(cè)量與神經(jīng)影像學(xué)表型聯(lián)系起來(lái)。
過(guò)去十年見(jiàn)證了高通量組織處理和分析的重大進(jìn)展,使生成解剖學(xué)上全面的大腦轉(zhuǎn)錄組圖譜成為可能。這些圖譜包含了幾乎整個(gè)基因組轉(zhuǎn)錄活性的測(cè)量數(shù)據(jù),這些測(cè)量數(shù)據(jù)來(lái)自大腦中數(shù)千個(gè)組織樣本,為識(shí)別具有與神經(jīng)影像學(xué)表型相關(guān)的空間表達(dá)模式的基因開(kāi)辟了新的可能性,從而催生了新興的成像轉(zhuǎn)錄組學(xué)領(lǐng)域。這些分析已經(jīng)確定了大腦多種結(jié)構(gòu)和功能特性的轉(zhuǎn)錄相關(guān)性,包括以下方面:區(qū)域間連接;經(jīng)典的sensory-fugal皮質(zhì)層次;典型大規(guī)模網(wǎng)絡(luò)及其拓?fù)浜蜁r(shí)間特性;以及內(nèi)在動(dòng)力學(xué)的空間梯度。成像轉(zhuǎn)錄組學(xué)也確定了不同疾病中大腦連接障礙的轉(zhuǎn)錄相關(guān)因素,并揭示了在疾病以及發(fā)育和衰老過(guò)程中觀察到的大腦變化的假定細(xì)胞相關(guān)因素。此外,轉(zhuǎn)錄數(shù)據(jù)為腦功能的動(dòng)態(tài)模型提供了信息,并提高了我們對(duì)神經(jīng)退行性疾病傳播的理解。
盡管成像轉(zhuǎn)錄組學(xué)前景廣闊且迅速普及,但神經(jīng)成像與全腦轉(zhuǎn)錄組-圖譜數(shù)據(jù)的整合取決于眾多可能影響最終結(jié)果的數(shù)據(jù)處理和分析選擇。不同的研究人員歷來(lái)都使用自己定制的分析管道,因此很難確定這些選擇對(duì)報(bào)告結(jié)果的影響。因此,最佳實(shí)踐工作流的開(kāi)發(fā)對(duì)于以有效和可重復(fù)的方式推進(jìn)該領(lǐng)域至關(guān)重要。本文回顧了近期探索各種處理選項(xiàng)影響的工作,并試圖開(kāi)發(fā)易于使用的管道以實(shí)現(xiàn)最佳處理選擇,從而構(gòu)建成像轉(zhuǎn)錄組學(xué)的最佳實(shí)踐工作流。本文概述了此類分析中的一些關(guān)鍵步驟,強(qiáng)調(diào)了需要仔細(xì)考慮的問(wèn)題,并在已有基礎(chǔ)上給出了最佳選擇的建議。本文將重點(diǎn)討論任何成像轉(zhuǎn)錄組分析的3個(gè)關(guān)鍵階段:1)處理轉(zhuǎn)錄圖譜數(shù)據(jù);2)將表達(dá)測(cè)量與神經(jīng)影像學(xué)表型相關(guān)聯(lián);3)評(píng)估基因特異性和富集性。本文希望促進(jìn)該領(lǐng)域標(biāo)準(zhǔn)化處理和分析方法的發(fā)展,從而促進(jìn)不同研究之間的比較,并促進(jìn)有效和準(zhǔn)確的推斷。
階段1:處理轉(zhuǎn)錄圖譜數(shù)據(jù)
成像轉(zhuǎn)錄組學(xué)研究依賴于全腦轉(zhuǎn)錄圖譜,可量化大腦中多個(gè)位置數(shù)千個(gè)基因的表達(dá)。測(cè)量轉(zhuǎn)錄活性的方法取決于一系列因素,包括物種、所需的空間分辨率和組織可用性。與其他具有更高空間分辨率的方法(如單細(xì)胞RNA測(cè)序或原位雜交)相比,人腦組織的有限可用性意味著大塊組織微陣列仍然是高通量空間轉(zhuǎn)錄組學(xué)最容易獲得的方法。艾倫人腦圖譜(AHBA)提供了一個(gè)解剖學(xué)上全面的人腦轉(zhuǎn)錄圖譜,對(duì)來(lái)自6個(gè)死后大腦的3702個(gè)解剖位置的20000多個(gè)基因的表達(dá)進(jìn)行了量化分析。由于使用T1加權(quán)磁共振成像對(duì)供體大腦進(jìn)行掃描,并將掃描結(jié)果歸一化到標(biāo)準(zhǔn)化空間,因此可以直接比較基因表達(dá)和神經(jīng)成像數(shù)據(jù)的空間模式。然而,由于AHBA中的解剖位置是使用空間分布的小塊組織進(jìn)行采樣,因此實(shí)現(xiàn)此空間映射的最簡(jiǎn)單方法是對(duì)兩者應(yīng)用一些區(qū)域分割。通過(guò)這種方式,特定腦區(qū)內(nèi)基因表達(dá)的匯總測(cè)量可以與同一區(qū)域內(nèi)量化的成像測(cè)量相關(guān)聯(lián)。
類AHBA數(shù)據(jù)中的主要任務(wù)是構(gòu)建一個(gè)N×G矩陣,其中N是分割的腦區(qū)數(shù)量,G是測(cè)定的基因數(shù)量。圖1概述了獲取該區(qū)域基因表達(dá)矩陣的典型工作流程的關(guān)鍵步驟。每個(gè)步驟都需要研究人員做出可能影響最終結(jié)果的選擇。在這里,本文總結(jié)了每個(gè)步驟的關(guān)鍵點(diǎn)和建議。

步驟1:驗(yàn)證探針到基因的注釋
微陣列數(shù)據(jù)使用探針序列來(lái)量化基因表達(dá),探針序列對(duì)應(yīng)于包含單個(gè)基因的DNA的獨(dú)特部分。基因探針的分配是使用不斷更新的可用測(cè)序數(shù)據(jù)庫(kù)來(lái)進(jìn)行的。因此,使用最新、最準(zhǔn)確的基因探針定位來(lái)確保測(cè)量的有效性是至關(guān)重要的。
步驟2:過(guò)濾探針
微陣列實(shí)驗(yàn)容易產(chǎn)生背景噪聲,部分原因是非特異性雜交。因此,必須去除表達(dá)水平不超過(guò)背景的噪聲探針,以提高微陣列測(cè)量的有效性。根據(jù)本研究的分析,在至少50%的樣本中保留表達(dá)水平超過(guò)背景水平的探針可以為降低噪聲提供適當(dāng)?shù)钠胶猓瑫r(shí)保持大約70%的可用探針,從而確保高解剖覆蓋率。
步驟3:選擇有代表性的探針
原始AHBA數(shù)據(jù)中90%以上的基因具有多個(gè)探針可用,而且并非所有探針都顯示出一致的表達(dá)模式。應(yīng)選擇單個(gè)有代表性的探針或跨多個(gè)探針的匯總測(cè)量值,以降低數(shù)據(jù)復(fù)雜性和幫助解釋。已有文獻(xiàn)實(shí)現(xiàn)了多種方法。本文建議根據(jù)探針與2個(gè)(共6個(gè))供體大腦中收集的RNA測(cè)序測(cè)量值的相關(guān)性來(lái)選擇探針,因?yàn)樗峁┝俗罱咏孛嬲嬷禍y(cè)量的方法。當(dāng)無(wú)法做到這一點(diǎn)時(shí),本文建議使用具有最高差異穩(wěn)定性的探針,用于測(cè)量供體大腦中基因表達(dá)譜的一致性。
步驟4:將組織樣本分配到腦區(qū)
每個(gè)組織樣本都具有立體定向坐標(biāo)和解剖標(biāo)記的特征,可用于將測(cè)量到的相應(yīng)表達(dá)映射到所選大腦分割中的一個(gè)區(qū)域。本文建議根據(jù)組織樣本的廣泛解剖位置(皮層/皮層下)將其分別映射到區(qū)域,并將樣本分配到分割中最近的區(qū)域(而不是該區(qū)域的質(zhì)心),同時(shí)將原始樣本位置的距離閾值設(shè)置為2mm,以避免距離該區(qū)域太遠(yuǎn)的樣本映射不準(zhǔn)確。
步驟5:規(guī)范表達(dá)測(cè)量
由于AHBA數(shù)據(jù)是從6個(gè)供體大腦中收集的,因此任何結(jié)合不同大腦樣本以獲得解剖學(xué)全面圖譜的分析都必須考慮供體大腦表達(dá)的個(gè)體差異。AHBA團(tuán)隊(duì)在數(shù)據(jù)發(fā)布之前執(zhí)行的標(biāo)準(zhǔn)化程序消除了批次效應(yīng)和人為的個(gè)體間差異,但仍殘存大量的個(gè)體間差異。在每個(gè)供體腦中跨區(qū)域執(zhí)行額外的z評(píng)分或縮放的魯棒sigmoid歸一化步驟可用于消除這種殘余變異性,并最大限度地減少離群值的影響。
步驟6:在供體大腦中選擇具有一致表達(dá)模式的基因
在AHBA的20000多個(gè)基因中,只有一小部分在不同的供體大腦中表現(xiàn)出一致的區(qū)域差異,這是通過(guò)差異穩(wěn)定性測(cè)量進(jìn)行量化的。識(shí)別在大腦中顯示出可重復(fù)變異的一致表達(dá)基因或已知在大腦中表達(dá)的基因,可以為研究與神經(jīng)影像學(xué)表型的關(guān)系提供更有針對(duì)性的方法。
在以上概述的6個(gè)步驟中,每個(gè)步驟都可以做出大量的選擇,從而導(dǎo)致研究人員可以選擇的可能管道組合激增。最近的一項(xiàng)研究廣泛探索了以上工作流中17個(gè)決策點(diǎn)的影響,產(chǎn)生了746496個(gè)不同的處理管道(見(jiàn)圖2)。該研究使用這種綜合分析來(lái)確定影響最終結(jié)果的關(guān)鍵處理選擇,并使用基于3種常用分析類型的3個(gè)結(jié)果指標(biāo)進(jìn)行量化:基因共表達(dá)(跨區(qū)域基因之間的相似性),區(qū)域基因表達(dá)(特定基因或基因集的空間表達(dá)模式)和相關(guān)基因表達(dá)(CGE)(跨基因區(qū)域表達(dá)譜之間的相似性;下面將詳細(xì)討論所有測(cè)量;參見(jiàn)圖3)。該研究發(fā)現(xiàn),涉及基因歸一化的數(shù)據(jù)處理選擇(步驟5)影響最大(圖2),其次是將組織樣本映射到大腦區(qū)域的選擇(步驟4)。與探針選擇(步驟3)有關(guān)的影響最小(圖2A)。通過(guò)將這項(xiàng)分析的結(jié)果與先前的結(jié)果相結(jié)合,該研究開(kāi)發(fā)了一個(gè)在開(kāi)源abagen工具箱中執(zhí)行的數(shù)據(jù)處理工作流。abagen工具箱還可以生成所選處理選項(xiàng)的標(biāo)準(zhǔn)化報(bào)告,以提高出版物報(bào)告的透明度。

階段2:相關(guān)表達(dá)和神經(jīng)成像測(cè)量
將轉(zhuǎn)錄數(shù)據(jù)轉(zhuǎn)換成區(qū)域-基因表達(dá)矩陣后,下一步是將這些測(cè)量與某些神經(jīng)影像學(xué)表型相關(guān)聯(lián)。在這種情況下,通常使用三種主要方法之一來(lái)概括基因表達(dá)數(shù)據(jù)(圖3)。第一種是基因共表達(dá)分析,包括分析成對(duì)基因(跨腦區(qū))表達(dá)模式之間的空間相關(guān)性。對(duì)于所有基因?qū)?,結(jié)果可以表示為一個(gè)(對(duì)稱的)基因-基因矩陣,以分析基因表達(dá)相似性的模式(圖3A)。該矩陣也可以使用一些聚合值(例如,矩陣或其子分量的特征向量,有時(shí)稱為特征基因)進(jìn)行概括,從而產(chǎn)生一個(gè)高度解釋性的分量作為可以與成像數(shù)據(jù)相關(guān)聯(lián)的空間地圖。第二種分析側(cè)重于區(qū)域基因表達(dá),其中根據(jù)每個(gè)腦區(qū)定義的神經(jīng)影像學(xué)指標(biāo)評(píng)估選定基因或基因組的空間相關(guān)性。同樣的原則適用于多變量分析,例如那些使用偏最小二乘法的分析,這些分析可以確定具有最大協(xié)方差的基因和成像測(cè)量的加權(quán)組合(圖3B)。第三種分析考察了CGE,計(jì)算了所有成對(duì)腦區(qū)之間的相關(guān)性,量化了其基因表達(dá)譜的相似性。結(jié)果可以表示為一個(gè)(對(duì)稱的)區(qū)域-區(qū)域矩陣,并直接與在區(qū)域?qū)λ缴蠝y(cè)量的其他類型的數(shù)據(jù)進(jìn)行比較,例如結(jié)構(gòu)或功能連接(圖3C)。

大多數(shù)研究依賴于區(qū)域基因表達(dá)分析或CGE估計(jì),并使用空間(大規(guī)模)單變量、全連接組或多變量分析技術(shù)將其與神經(jīng)影像學(xué)測(cè)量相關(guān)聯(lián)。分析方法之間的選擇取決于正在研究的特定假設(shè)和影像學(xué)表型。例如,神經(jīng)影像學(xué)表型的區(qū)域差異可以使用數(shù)據(jù)驅(qū)動(dòng)和假設(shè)驅(qū)動(dòng)的方法與基因表達(dá)的區(qū)域模式相關(guān),而來(lái)自結(jié)構(gòu)或功能數(shù)據(jù)的成對(duì)大腦連接的測(cè)量可能更自然地與CGE相關(guān)聯(lián),CGE可以捕獲大腦區(qū)域之間共享的轉(zhuǎn)錄模式。轉(zhuǎn)錄和神經(jīng)成像數(shù)據(jù)的一個(gè)重要特性是強(qiáng)烈的空間自相關(guān);距離較近的區(qū)域比距離較遠(yuǎn)的區(qū)域具有更相似的數(shù)值。在基因表達(dá)數(shù)據(jù)中,任意兩點(diǎn)之間的相關(guān)性隨著它們的空間分離大致呈指數(shù)衰減。CGE中的這種指數(shù)距離規(guī)則已在不同類型的空間分辨轉(zhuǎn)錄組數(shù)據(jù)中得到確認(rèn),包括人類皮層,成年小鼠大腦,以及秀麗隱桿線蟲(chóng)的頭部。對(duì)于動(dòng)物的連接概率和強(qiáng)度以及人腦的區(qū)域間結(jié)構(gòu)連接,已確定了類似的指數(shù)距離規(guī)則。
由于傳統(tǒng)的統(tǒng)計(jì)方法假設(shè)觀測(cè)值是獨(dú)立的,因此分析空間自相關(guān)(即非獨(dú)立)數(shù)據(jù)需要特別考慮,因?yàn)樽韵嚓P(guān)可能會(huì)夸大表達(dá)和成像數(shù)據(jù)之間的關(guān)聯(lián)。因此,如果沒(méi)有考慮空間非獨(dú)立性,可能會(huì)對(duì)真實(shí)關(guān)聯(lián)產(chǎn)生過(guò)于樂(lè)觀的估計(jì)。解決空間自相關(guān)的一種方法是建模并消除數(shù)據(jù)的空間依賴性(例如,通過(guò)回歸),然后分析殘差。這種方法非常適合成對(duì)區(qū)域特性(如CGE)的分析,但它基于以下假設(shè):建模的空間相關(guān)性能夠很好地近似于必須去除的空間自相關(guān)性。
另一種非常適合區(qū)域分析的方法是使用空間約束的零模型。這些零模型保留了空間映射的自相關(guān)性,從而能夠推斷經(jīng)驗(yàn)觀察到的表達(dá)和神經(jīng)成像測(cè)量之間的相關(guān)性是否超出2個(gè)隨機(jī)自相關(guān)變量的預(yù)期(圖4)。非參數(shù)空間排列模型和參數(shù)化空間模型是神經(jīng)成像研究中兩大類受空間約束的模型。非參數(shù)模型非常適合于大腦皮層的分析,并利用皮層表面可以映射到球體的事實(shí),允許簡(jiǎn)單的旋轉(zhuǎn),從而將值分配到特定的皮層位置,同時(shí)保留數(shù)據(jù)的確切距離依賴性。參數(shù)化模型估計(jì)經(jīng)驗(yàn)地圖的內(nèi)在空間自相關(guān)性,并使用所得模型生成具有隨機(jī)拓?fù)涞哂锌臻g自相關(guān)性的地形圖。

空間排列模型的主要優(yōu)點(diǎn)是保留了經(jīng)驗(yàn)數(shù)據(jù)的距離-依賴關(guān)系。但是,含缺失值的區(qū)域可能會(huì)在地形圖旋轉(zhuǎn)后產(chǎn)生問(wèn)題,并且已經(jīng)開(kāi)發(fā)了各種啟發(fā)式方法來(lái)解決此問(wèn)題,例如丟棄缺失數(shù)據(jù),然后基于最近的可用區(qū)域?qū)θ笔е祬^(qū)域進(jìn)行插值。另一個(gè)限制是,基于排列的方法不能應(yīng)用于皮層下結(jié)構(gòu),這些結(jié)構(gòu)通常不能充分建模為二維球面。參數(shù)化模型不受缺失數(shù)據(jù)的影響,可以等效地應(yīng)用于皮層和皮層下測(cè)量,但不能保證經(jīng)驗(yàn)距離依賴性與原始經(jīng)驗(yàn)值的精確匹配。因此,涉及不同空間地形圖的分析可能會(huì)受到模型擬合變化的影響。對(duì)這些不同皮層分析方法的各種實(shí)現(xiàn)進(jìn)行比較表明,與參數(shù)化模型相比,基于排列的模型提供了更保守的顯著性估計(jì)值和更低的錯(cuò)誤率。然而,沒(méi)有一種方法是完美的,對(duì)于強(qiáng)自相關(guān)數(shù)據(jù)的錯(cuò)誤率超過(guò)40%,這表明有效的推斷還需要進(jìn)一步發(fā)展。Markello等人(2021)對(duì)不同的零模型進(jìn)行了擴(kuò)展研究,其實(shí)現(xiàn)工具箱可在https://netneurolab.github.io/neuromaps/上找到。
階段3:評(píng)估基因特異性和富集性
目前全腦轉(zhuǎn)錄圖譜量化了多達(dá)約20000個(gè)基因的表達(dá)水平。鑒于一組給定的影像學(xué)表型可能產(chǎn)生大量的關(guān)聯(lián),確定某些基因或基因集是否與感興趣的表型優(yōu)先相關(guān)至關(guān)重要。分析可以大致分為以下兩類:1)假設(shè)驅(qū)動(dòng),即分析假設(shè)感興趣的特定基因(或基因集);2)數(shù)據(jù)驅(qū)動(dòng),即計(jì)算整個(gè)轉(zhuǎn)錄組的效應(yīng),然后推斷特定基因[或功能分類的基因集]的優(yōu)先參與。
假設(shè)驅(qū)動(dòng)分析已被證明有助于理解不同疾病中假定易感基因的表達(dá)譜與大腦變化之間的聯(lián)系,以及某些特定基因的表達(dá)與連接相關(guān)表型之間的聯(lián)系。細(xì)胞特異性標(biāo)記基因的轉(zhuǎn)錄譜顯示與一系列疾病的皮層厚度變化以及與年齡相關(guān)的皮層髓鞘化和厚度變化有關(guān)。大部分的研究工作都忽略了這樣一個(gè)問(wèn)題,即所報(bào)告的關(guān)聯(lián)是特定于所選擇的基因集,還是可以使用不同的基因集來(lái)識(shí)別相似的關(guān)聯(lián)??紤]到基因表達(dá)數(shù)據(jù)的低維性,其中常見(jiàn)的大規(guī)模梯度可以解釋基因間轉(zhuǎn)錄變異的很大一部分,通過(guò)比較表達(dá)和神經(jīng)成像測(cè)量之間已識(shí)別的關(guān)聯(lián)與使用其他基因集觀察到的影響來(lái)評(píng)估基因特異性至關(guān)重要。實(shí)證研究結(jié)果表明,即使在使用空間約束零模型評(píng)估的空間特異性關(guān)聯(lián)中,使用隨機(jī)基因集的自由基因特異性測(cè)試中僅58%存活,使用隨機(jī)選擇的大腦中特異性表達(dá)的基因時(shí)僅37%存活。模擬進(jìn)一步表明,在空間自相關(guān)腦表型和單基因轉(zhuǎn)錄譜之間識(shí)別出的所有關(guān)聯(lián)中,只有3%在空間自相關(guān)和基因特異性校正后幸存。這一結(jié)果表明,對(duì)空間自相關(guān)性的控制不足以識(shí)別特定的基因-表型關(guān)聯(lián),而且文獻(xiàn)中大量看似有意義的關(guān)聯(lián)可能并不特定于所報(bào)告的基因集。因此,在選擇一個(gè)適當(dāng)匹配的基因集來(lái)評(píng)估研究結(jié)果的特異性時(shí),應(yīng)仔細(xì)考慮對(duì)數(shù)據(jù)提出的具體問(wèn)題??紤]到大量相關(guān)基因可能會(huì)掩蓋特異性或主導(dǎo)結(jié)果,尤其是在多變量分析中,首先檢查感興趣基因與未包含在目標(biāo)集中的任何其他基因之間的空間相關(guān)性始終是一種良好的實(shí)踐。
與假設(shè)驅(qū)動(dòng)的研究相比,數(shù)據(jù)驅(qū)動(dòng)的分析測(cè)試的是在轉(zhuǎn)錄數(shù)據(jù)中分析的數(shù)千個(gè)基因的表達(dá)譜與感興趣的表型之間的關(guān)聯(lián)。然而,許多基因并不是獨(dú)立的,它們具有相似的空間相關(guān)表達(dá)模式或作為共同生理通路的一部分共同工作。因此,在數(shù)據(jù)驅(qū)動(dòng)的分析中,測(cè)試與表型特別強(qiáng)的關(guān)聯(lián)是否集中在某些功能相關(guān)的基因集中是很常見(jiàn)的。這些分析中最常見(jiàn)的方法是使用基于層次系統(tǒng)的基因功能注釋,根據(jù)基因與分子功能、細(xì)胞組分和生物過(guò)程的關(guān)聯(lián)對(duì)基因進(jìn)行分類。傳統(tǒng)上,這種基因類別富集分析(GCEA)已被用于支持全基因集關(guān)聯(lián)結(jié)果的解釋,或者用于對(duì)特定組織樣本的基因表達(dá)進(jìn)行病例對(duì)照比較,通過(guò)評(píng)估與隨機(jī)選擇的基因相比,某一基因類別是否優(yōu)先與表型相關(guān)(圖5A)。

將GCEAs應(yīng)用于空間嵌入的轉(zhuǎn)錄數(shù)據(jù)會(huì)引入額外的統(tǒng)計(jì)考慮因素,這些考慮因素可能導(dǎo)致虛假的富集證據(jù)。用于GCEA的經(jīng)典零模型沒(méi)有考慮這種相互關(guān)聯(lián)結(jié)構(gòu)(或空間自相關(guān)),導(dǎo)致統(tǒng)計(jì)推斷趨向于假陽(yáng)性(圖5A)。Fulcher等人(2021)建議通過(guò)隨機(jī)化表型(而非基因)來(lái)生成零分布,從而在零樣本的類別中保留基因-基因相關(guān)結(jié)構(gòu)。從上一節(jié)可以明顯看出,表型可以以空間約束或非約束的方式隨機(jī)化(圖5B)。使用這種以表型為中心的零模型進(jìn)行推斷,大大減少了在對(duì)小鼠和人類的14種不同腦表型進(jìn)行分析時(shí)確定的顯著富集結(jié)果的數(shù)量。這些發(fā)現(xiàn)表明,文獻(xiàn)中報(bào)道的大量富集結(jié)果可能受到假陽(yáng)性偏倚的影響,需要進(jìn)一步的研究來(lái)驗(yàn)證。
結(jié)論
本文概述了與進(jìn)行成像轉(zhuǎn)錄組學(xué)分析相關(guān)的幾個(gè)關(guān)鍵考慮因素(圖6)。對(duì)這些考慮因素的詳細(xì)研究強(qiáng)調(diào)了在做出處理和分析選擇時(shí)需要注意的事項(xiàng)。目前已經(jīng)開(kāi)發(fā)了幾個(gè)開(kāi)源工具箱,可以實(shí)現(xiàn)每個(gè)分析階段列出的許多最佳實(shí)踐過(guò)程(表1)。然而,即使依賴于這些工具,也需要根據(jù)具體情況仔細(xì)考慮,以獲得有效的推斷和可再現(xiàn)的結(jié)果。此外,任何使用AHBA數(shù)據(jù)的分析都必須考慮幾個(gè)關(guān)鍵的限制因素。


首先,基因表達(dá)與蛋白質(zhì)豐度之間的關(guān)系很復(fù)雜,轉(zhuǎn)錄活性的變化不一定會(huì)影響蛋白質(zhì)水平。其次,AHBA依賴于對(duì)大量組織樣本的微陣列分析,由此產(chǎn)生的估計(jì)值可能受到細(xì)胞組成的區(qū)域差異的影響;因此,應(yīng)盡可能使用單細(xì)胞RNA測(cè)序數(shù)據(jù)對(duì)結(jié)果進(jìn)行交叉驗(yàn)證。第三,雖然AHBA旨在量化典型的轉(zhuǎn)錄模式,這些模式與其他死后組織庫(kù)(表2)相比提供了無(wú)與倫比的空間覆蓋率,但AHBA測(cè)量來(lái)自6個(gè)成年供體的小樣本。AHBA各腦區(qū)基因表達(dá)的變異性比這6個(gè)個(gè)體大得多,這提示該圖譜可用于研究穩(wěn)健的區(qū)域表達(dá)譜,但對(duì)供體大腦代表性的擔(dān)憂是有原因的。第四,AHBA僅測(cè)定成人大腦中的基因表達(dá)模式,但許多神經(jīng)表型可能取決于發(fā)育過(guò)程中復(fù)雜且動(dòng)態(tài)變化的基因表達(dá)模式。最后,由于AHBA數(shù)據(jù)是基于小樣本的供體測(cè)量,因此在基因表達(dá)模式與影像學(xué)表型(或其他結(jié)果)之間發(fā)現(xiàn)的任何關(guān)系都是純粹的相關(guān)關(guān)系,并不直接揭示因果機(jī)制。

原文:Toward Best Practices for Imaging Transcriptomics of the Human Brain.DOI:https://doi.org/10.1016/j.biopsych.2022.10.016
小伙伴們點(diǎn)星標(biāo)關(guān)注茗創(chuàng)科技,將第一時(shí)間收到精彩內(nèi)容推送哦~
