10×單細(xì)胞轉(zhuǎn)錄組常見Q&A(三)|數(shù)據(jù)質(zhì)控專題

各位老師大家好!第三期10×單細(xì)胞轉(zhuǎn)錄組常見 Q&A如期而至。上兩期中,我們分別介紹了單細(xì)胞實(shí)驗(yàn)開展前最需要了解的幾大問題(點(diǎn)擊閱讀)和實(shí)驗(yàn)質(zhì)控相關(guān)問題(點(diǎn)擊閱讀)。本期將為大家介紹單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)質(zhì)控,質(zhì)控就是為了保證數(shù)據(jù)的質(zhì)量,并且檢測細(xì)胞分布是否符合預(yù)期。單細(xì)胞數(shù)據(jù)質(zhì)控主要看哪些指標(biāo)呢?
指標(biāo)一??原始數(shù)據(jù)質(zhì)控
單細(xì)胞轉(zhuǎn)錄組測序獲得的原始數(shù)據(jù)為 fastq(或?yàn)閴嚎s文件 fq.gz)格式,每個樣本有 read1.fastq.gz 和 read2.fastq.gz兩個文件,其中read1 為 barcode 和 UMI 信息,read2 為測序的 RNA 序列信息,后續(xù)根據(jù)序列標(biāo)簽信息可進(jìn)行數(shù)據(jù)拆分及定量。在數(shù)據(jù)分析過程中,我們首先需要對下機(jī)的原始數(shù)據(jù)進(jìn)行一系列嚴(yán)格的質(zhì)控,去除掉低質(zhì)量數(shù)據(jù),保留高質(zhì)量數(shù)據(jù)以確保后續(xù)數(shù)據(jù)分析結(jié)果的真實(shí)性及可靠性。FastQC軟件可以快速對測序數(shù)據(jù)進(jìn)行整體統(tǒng)計(jì)及質(zhì)量評估,直觀地反映出測序數(shù)據(jù)的好壞。
Q:單細(xì)胞轉(zhuǎn)錄組推薦的測序數(shù)據(jù)量是多少?
答:中科使用Single Cell 3' V3.1版試劑盒,官方建議最低測序量20K reads/cell。目前,中科提供的數(shù)據(jù)量默認(rèn)為90G/樣,客戶可依據(jù)具體的實(shí)驗(yàn)?zāi)康臎Q定數(shù)據(jù)量的多少。
Q:如何判斷測序數(shù)據(jù)的好壞?
答:通過計(jì)算每個堿基的質(zhì)量值,對測序的read 進(jìn)行質(zhì)量評估。堿基質(zhì)量值 Q= -10×Log10(P),在生物物理學(xué)中是堿基識別出錯概率的整數(shù)映射,用于分析每個堿基被識別錯誤的概率,其值越高表明堿基識別越可靠。質(zhì)控標(biāo)準(zhǔn)中的 Q20 表示該堿基錯誤的概率為 0.01,Q30 表示錯誤率為0.001。一般Q20在85%以上,Q30在80%以上視為測序質(zhì)量較好。
指標(biāo)二?細(xì)胞過濾
我們在做單細(xì)胞測序的時候,首先要做細(xì)胞分離。分離條件對某些類型的細(xì)胞不適應(yīng),造成細(xì)胞破碎或凋亡,RNA溢出,導(dǎo)致線粒體基因比例上升,會干擾細(xì)胞分群。因此,在Cell Ranger 生成表達(dá)矩陣之后,還需要進(jìn)一步對細(xì)胞進(jìn)行過濾。
Q:如何判定線粒體的過濾標(biāo)準(zhǔn)?
答:細(xì)胞本身就需要能量,所以必然含有一定的線粒體基因。線粒體過濾的原則為,去除線粒體基因含量過高的細(xì)胞,但不能大量丟失樣本的細(xì)胞信息。目前統(tǒng)計(jì)的文章線粒體過濾閾值在5%~30%之間不等,但是一些特殊樣本,如腫瘤組織、心臟樣本、肌肉樣本,因其本身的線粒體含量偏高,固定閾值篩選原則顯然是不合適的,故而此標(biāo)準(zhǔn)需要進(jìn)行調(diào)整。
目前,中科關(guān)于線粒體過濾采用絕對中位差(Median Absolute Deviation,MAD)。

絕對中位差是一種統(tǒng)計(jì)離差的測量。而且,MAD是一種魯棒統(tǒng)計(jì)量,比標(biāo)準(zhǔn)差更能適應(yīng)數(shù)據(jù)集中的異常值。對于標(biāo)準(zhǔn)差,使用的是數(shù)據(jù)到均值的距離平方,所以大的偏差權(quán)重更大,異常值對結(jié)果也會產(chǎn)生重要影響。對于MAD,少量的異常值不會影響最終的結(jié)果。且MAD是一個比樣本方差或者標(biāo)準(zhǔn)差更魯棒的度量,對于不存在均值或者方差的分布效果更好。
指標(biāo)三?多樣本批次矯正
當(dāng)涉及多個樣本進(jìn)行比較分析時,需要對這些樣本進(jìn)行合并分析和批次矯正。目前,中科采用 Harmony 方法對scRNA 數(shù)據(jù)進(jìn)行多樣本合并和批次效應(yīng)的校正。

Harmony原理:利用PCA將轉(zhuǎn)錄組表達(dá)譜嵌入到低維空間中,不同顏色表示不同數(shù)據(jù)集,不同形狀表示不同的細(xì)胞類型,然后應(yīng)用迭代過程去除數(shù)據(jù)集特有的影響。
A.Harmony概率性地將細(xì)胞分配給cluster,從而使每個cluster內(nèi)數(shù)據(jù)集的多樣性最大化;
B.Harmony計(jì)算每個cluster的所有數(shù)據(jù)集的全局中心,以及特定數(shù)據(jù)集的中心;
C.在每個cluster中,Harmony基于中心為每個數(shù)據(jù)集計(jì)算校正因子;
D.最后,Harmony使用基于C的特定于細(xì)胞的因子校正每個細(xì)胞。由于Harmony使用軟聚類,因此可以通過多個因子的線性組合對其A中進(jìn)行的軟聚類分配進(jìn)行線性校正,來修正每個單細(xì)胞。
重復(fù)步驟A到D,直到收斂為止。聚類分配和數(shù)據(jù)集之間的依賴性隨著每一輪的減少而減小。
Harmony算法與其他整合算法相比的優(yōu)勢:
(1)整合數(shù)據(jù)的同時對稀有細(xì)胞的敏感性依然很好;
(2)適合于更復(fù)雜的單細(xì)胞分析實(shí)驗(yàn)設(shè)計(jì),可以比較來自不同供體,組織和技術(shù)平臺的細(xì)胞。
總結(jié)
本期分享到這里就結(jié)束啦,通過這三期Q&A內(nèi)容的學(xué)習(xí),相信各位老師對單細(xì)胞轉(zhuǎn)錄組已經(jīng)有了比較深入的了解,以及如何將單細(xì)胞技術(shù)應(yīng)用于自己的課題也有了明確的方向。中科新生命單細(xì)胞多組學(xué)相關(guān)產(chǎn)品持續(xù)熱銷中,歡迎感興趣的老師前來咨詢。
參考文獻(xiàn)
[1] Korsunsky I , Fan J , Slowikowski K , et al. Fast, sensitive, and flexible integration of single cell data with Harmony[J]. Cold Spring Harbor Laboratory, 2018(12).
往期推薦
10×單細(xì)胞轉(zhuǎn)錄組常見Q&A(一)| 實(shí)驗(yàn)開展前最需要了解的幾大問題
10×單細(xì)胞轉(zhuǎn)錄組常見Q&A(二)|實(shí)驗(yàn)質(zhì)控相關(guān)