科普硬貨-靶向測序概述
自從1977年一代測序被發(fā)明以來,測序技術不斷發(fā)展。 從一代sanger測序,發(fā)展到二代測序,現(xiàn)在已經(jīng)到了三代全長測序。 其中二代測序相比于一代測序,通過將核酸片段化進行平行大規(guī)模測序,大大增加了測序的效率。早期的二代效率集中在全基因組測序和全轉錄組測序,盡管測序的效率有所增加,成本有所降低。 但是測序數(shù)據(jù)依然非常龐大,為了更進一步的節(jié)省成本,提高效率,靶向測序應運而生。 ?
靶向測序定義:
將基因組中感興趣的區(qū)域或者位點富集出來,然后使用二代測序(NGS)方法去進行測序,包含全外顯子組(基因組蛋白編碼區(qū)域),針對感興趣的特定基因定制測序panel等。 ?
靶向捕獲測序背景
1977年 Walter Gilbert和Frederick Sanger發(fā)明了第一臺測序儀,使用鏈終止法測序其測定了第一個基因組序列,噬菌體X174,全長5375個堿基。Sanger 測序的發(fā)明,標志著基因測序技術正式進入生命科學研究舞臺 1988年Chambehian等人首次提出多重PCR技術,為后續(xù)多重PCR擴增子測序打下基礎 2005年Nature Method 上發(fā)表了一篇名為《Direct genomic selection》的文章,該文章利用長度為150kb生物素標記的BAC DNA和經(jīng)過處理的人類基因組DNA進行雜交,通過鏈霉親和磁珠對DNA片段進行捕獲,后續(xù)又經(jīng)過PCR擴增后進行測序。測序結果表明約~50%的序列來自于靶標區(qū)域
?
?
2008年,安捷倫聯(lián)合Broad研究所,將其超長寡核苷酸合成技術和平行測序相結合,在Nature Biotechnology發(fā)表文章,奠定安捷倫雜交捕獲測序方法學基礎。
?
2009年,安捷倫聯(lián)合華盛頓大學在Nature上發(fā)表文章,使用靶向捕獲測序技術檢測人類外顯子 ?
? 同年安捷倫推出了
世界上第一款商品化人類全外顯子探針產(chǎn)品
。 2021 年 4 月,安捷倫宣布首款基于機器學習探針設計方案的全外產(chǎn)品—人全外顯子組 V8 (SureSelect Human All Exon V8) 正式在中國上市,繼續(xù)書寫人全外顯子靶向捕獲技術新篇章。 2022年春, Qiagen 基于多重PCR技術全新一代 QIAseq Targeted DNA Pro 在中國正式上市 ? 目前常用的靶向測序用兩種方法:
靶向捕獲法和多重PCR法(又稱擴增子測序)
雜交捕獲法
雜交捕獲法是一種把
分子雜交
和
二代測序
相結合的靶向測序技術。 該技術需要設計和生產(chǎn)和目的區(qū)域互補的探針,通過探針將目的區(qū)域的片段捕獲下來,再將不需要的部分進行洗脫。 根據(jù)雜交的狀態(tài)又可分為固相雜交和液相雜交。
固相雜交
就是將設計好的探針固相的芯片上探針,通過探針將目標區(qū)段捕獲。
液相雜交
的實驗反應是在液體狀態(tài)中完整,探針攜帶生物素,當雜交完成后,通過鏈酶親和磁珠將探針吸附下來(此時探針有攜帶目標區(qū)段的和空探針),未被捕獲的片段被洗脫掉,再通過變性將探針和目標片段分開,然后利用磁珠將所有空探針吸附丟棄,完成捕獲。 ?
圖 1?安捷倫雜交捕獲測序流程
多重PCR法
多重PCR靶向測序技術又稱
擴增子靶向測序技術
,是一種將
多重PCR技術
與
二代測序技術
相結合的一種靶向測序技術。 該技術首先利用多重PCR反應,同時擴增多個目標區(qū)域序列,得到擴增子產(chǎn)物,然后通過PCR反應或者酶連接反應,將二代測序所需的接頭序列(adapter)引入到擴增子產(chǎn)物的兩側,得到擴增子文庫,然后進行二代測序和生信流程分析,獲取目標區(qū)域的序列信息,實現(xiàn)目標區(qū)域序列檢測的目的。常見的多重PCR靶向測序舉例:tNGS病原微生物靶向測序,用于分析病原微生物的群落組成和分布,來進行臨床病原微生物的診斷。 ?
圖 2?Qiagen 基于SPE技術的多重PCR靶向測序流程 ?
全基因組 vs 全外顯子 vs 多重PCR
數(shù)據(jù)評估
目標基因區(qū)域捕獲的數(shù)據(jù)質量主要通過以下指標評價:目標區(qū)域覆蓋度、捕獲效率、目標區(qū)域覆蓋均一性等。
目標區(qū)域覆蓋度:
指檢測到的區(qū)域相比目標區(qū)域的比例,最理想的情況就是感興趣的目標區(qū)域都能夠被覆蓋到。但是由于在設計探針的時候會考慮各種因素,如GC含量、序列的特征、序列的拷貝數(shù),序列相似性等問題,為了保證整體的基因捕獲效率,會選擇放棄一小部分區(qū)域的捕獲,這個比例約為0-3%。原則上來講,目標覆蓋度越高,探針或者多重PCR產(chǎn)品的性能也就越好。
捕獲效率:
落在目標區(qū)域的數(shù)據(jù)占總數(shù)據(jù)的比例。捕獲效率越高,代表測序數(shù)據(jù)的利用率越高。另外在設計探針時,需要評估覆蓋位置的序列特征,如果探針有很多落在重復序列區(qū)域,或者高拷貝序列區(qū),則探針會結合較多的非目標區(qū)域。設計更加特異性的探針能夠有效減少非特異序列的結合,提升捕獲效率。 通常影響捕獲效率的因素有以下幾點: 1.?高GC區(qū)域?- UTRs 和?啟動子區(qū)域通常是非常典型的高CG含量區(qū)域,這部分區(qū)域往往是低捕獲效率,并且會增加這些區(qū)域和其他區(qū)域的捕獲差別 2.?DNA?質量- 投入的DNA質量較差, 例如FFPE樣本提取的DNA,會產(chǎn)生捕獲偏差,因為這樣樣本中部分區(qū)域往往比其他區(qū)域碎片更多。如果捕獲不平衡,就會在下游 SNP s和其他形式的分析中產(chǎn)生偏差。建議用安捷倫自動化電泳儀器對核酸樣本進行質控,例如2100生物分析儀,Tapestation分析儀,F(xiàn)ragment analyzer等 3.?DNA?投入量?- Low input DNA 在建庫過程中往往需要更多的PCR循環(huán)數(shù)來或足夠量的預文庫。增加PCR循環(huán)數(shù),會造成更多的PCR duplicates, 會降低最終數(shù)據(jù)的有用信息。隨著技術發(fā)展,目前靶向測序所需DNA投入量已由傳統(tǒng)的微克級別下降至ng級別? 4.?Pseudogenes?-會降低覆蓋率的均勻性 5.?DNA片段大小?- 建議片段大小應和探針設計大小想匹配以獲得更大的捕獲效率,建議用安捷倫自動化電泳儀器對樣本核酸片段進行檢測,例如2100生物分析儀,Tapestation分析儀,F(xiàn)ragment analyzer等 6.?Repeat elements?- 會降低reads在外顯子組中分布的均勻性,導致需要更多的測序來檢測新的SNP。 ?
?
覆蓋均一性:
指每個區(qū)域的覆蓋深度是不是均勻。要想獲得高均一性覆蓋度的數(shù)據(jù),在預文庫構建時,要保證文庫的均一性要好。例如文庫構建時,采用無序列偏差的DNA片段化方法;采用對GC含量偏好性低的擴增酶;減少PCR富集的循環(huán)數(shù);如果使用探針雜交捕獲方法,探針設計時要更好的計算探針的結合能力,合理調(diào)整探針比例,實驗過程中采用高度優(yōu)化的雜交緩沖液進行捕獲實驗。 更多精彩,請查看公眾號“優(yōu)寧維分子生物學”,有超多文獻解讀與實驗技術科普文章等你來看
優(yōu)寧維分子生物學