生物信息快速入門(mén)

看完啦!
老師舉例能力賊牛批,通俗易懂,便于俺們小白理解!
干貨很多,可以幫助我們盡快對(duì)生信分析即將涉及到的內(nèi)容有大致印象,部分細(xì)節(jié)自行進(jìn)行了補(bǔ)充。
1 測(cè)序原理
見(jiàn) notion
2 大片段文庫(kù)
大片段文庫(kù):pairend(文庫(kù)片段大于1k的片段)
小片段文庫(kù):matepair(文庫(kù)片段小于1k的片段)
- 無(wú)論片段有多大,雙末端測(cè)序只能測(cè)兩端很短的部分(小幾百bp)
大片段測(cè)序
目的:獲得reads之間的物理距離關(guān)系(在序列拼接和基因組結(jié)構(gòu)變異檢測(cè)中有重要作用)。
面臨問(wèn)題:
- 無(wú)法PCR太長(zhǎng)的片段
- 只測(cè)序很短的序列,合成大片段浪費(fèi)
解決方案:環(huán)化處理,進(jìn)行打斷,選取生物素標(biāo)記片段(包含首尾),接下來(lái)的過(guò)程與小片段處理完全一致。
3 測(cè)序原理

GCbias對(duì)測(cè)序的影響:
會(huì)影響PCR
GC正常范圍:35%~65%
解決方案:PCR-free文庫(kù)(詳見(jiàn)notion or 公眾號(hào))
why不能一直測(cè)序下去?
后期錯(cuò)誤率顯著增加,隨著反應(yīng)進(jìn)行,酶活性下降,反應(yīng)條件發(fā)生較大改變,更重要的是phasing和pre-phasing,會(huì)對(duì)整體信號(hào)造成干擾。
測(cè)序中注意問(wèn)題:
- 必須保證DNA質(zhì)量,不能降解
- 樣品量要滿足建庫(kù)要求
- 要根據(jù)具體樣品特點(diǎn)選擇合適的建庫(kù)測(cè)序策略
- 測(cè)序要飽和(詳見(jiàn)下節(jié))
# 生信相關(guān)文件格式介紹詳見(jiàn)notion or 公眾號(hào),eg. fastq, sam, bam and so on
4 測(cè)序飽和度評(píng)估

測(cè)序不飽和的影響:
- 對(duì)于DNA基因組測(cè)序來(lái)說(shuō),影響序列拼接
- RNAseq定量不準(zhǔn)
- 宏基因組不能準(zhǔn)確反映物種的組成
5 數(shù)據(jù)質(zhì)控
指標(biāo):
堿基含量分布(測(cè)序數(shù)據(jù)與基因組GC含量一致)
堿基質(zhì)量分布(eg. 質(zhì)量值>Q20為好堿基,Q20百分比指質(zhì)量值大于等于20的堿基占總堿基的比例。注:Q值是描述單個(gè)堿基,Q20百分比是描述整體堿基)
# 生信相關(guān)軟件使用及其算法詳見(jiàn)notion or 公眾號(hào)
6 測(cè)序數(shù)據(jù)過(guò)濾
去除哪些嘞:
- 非“基因組”本身序列(adapter接頭、測(cè)序引物、barcode、index等)
- N堿基過(guò)多的reads
- 低質(zhì)量的數(shù)據(jù)(eg. 低于Q20堿基占一條reads總堿基的比率)
- duplication(打斷不隨機(jī)造成的)
- insertsize偏差過(guò)大的reads(可選)
注:
- RNAseq與16S測(cè)序的duplication并不是打斷不隨機(jī)造成
- 去除duplication會(huì)造成豐度信息丟失
7 短序列比對(duì)
短序列比對(duì)就是將這些測(cè)序的reads重新定位到基因組上,這個(gè)過(guò)程也叫做回帖或者mapping。

比對(duì)情況:

5 reads比對(duì)不到基因組上(0VS0)
8 短序列比對(duì)作用
兩種情況:
- 與自身基因組比對(duì)
- 計(jì)算每個(gè)位點(diǎn)覆蓋深度
- 計(jì)算參考序列覆蓋比率
- 與參考基因組比對(duì)
- RNA測(cè)序計(jì)算基因表達(dá)量
- 宏基因組測(cè)序計(jì)算不同生物的豐度
- 變異檢測(cè)
作用
- 計(jì)算reads利用率:reads利用率=比對(duì)到目標(biāo)序列的reads數(shù) / 總reads數(shù)
- 計(jì)算覆蓋深度與覆蓋比率
- 覆蓋深度,coverage depth,也稱為覆蓋度,也叫乘數(shù),是指每個(gè)堿基被測(cè)序的平均次數(shù),是用來(lái)衡量測(cè)序量的首要參數(shù)。
- 覆蓋比率,coverage ratio,也稱覆蓋率,指被測(cè)序到的堿基占全基因組大小的比例。覆蓋比率可以用來(lái)計(jì)算親緣關(guān)系。
測(cè)序覆蓋度與物理覆蓋度:

短序列比對(duì)軟件介紹了很多個(gè),以后可深入學(xué)習(xí),不過(guò)是不是只需要了解常用的即可嘞~

9 估計(jì)insertsize
插入片段insertsize大小,也就是文庫(kù)片段的長(zhǎng)度,同樣也是兩條測(cè)序reads的物理距離。
(insertsize大小包括reads長(zhǎng)度)
10 計(jì)算RNAseq基因差異表達(dá)分析
RPKM:

但是可變剪切reads有時(shí)候無(wú)法比對(duì)回去
So,

現(xiàn)在改用TPM了,相較于前兩者計(jì)算結(jié)果更準(zhǔn)確。
比較基因的差異表達(dá):
- FC值
- FDR校正
11 變異檢測(cè)
處理有歧義的位點(diǎn):
- 質(zhì)量值小于Q20
- 落在重復(fù)區(qū)域的位點(diǎn)
- 低頻的位點(diǎn)
- 利用概率模型進(jìn)行過(guò)濾
12 物種組成與豐度計(jì)算
16S高變區(qū)測(cè)序

- 數(shù)據(jù)過(guò)濾(注:這里數(shù)據(jù)過(guò)濾不可以去除duplication)
- reads拼接為tags
- tags聚成OTU(operational taxonomic unit)(可用mothur工具)
- OTU進(jìn)行分類
- OTU物種分類
- 得到物種組成及豐度
13 短序列比對(duì)FAQ
建立索引錯(cuò)誤:
- 目標(biāo)序列不能太短,否則無(wú)法建立索引
- 序列文件中不要有回車符
- 選擇正確的 bwa index 選項(xiàng)
短序列比對(duì)的資源消耗:
使用bam來(lái)減少數(shù)據(jù)存儲(chǔ)
如何提高比對(duì)效率:
- 完善軟件算法
- 提高計(jì)算機(jī)硬件資源
- 比對(duì)前要對(duì)數(shù)據(jù)進(jìn)行處理
- 將數(shù)據(jù)拆分合并提高比對(duì)效率
短序列比對(duì)與長(zhǎng)序列比對(duì)差別:
- 長(zhǎng)序列是比對(duì)多少的問(wèn)題,短序列是比對(duì)有無(wú)的問(wèn)題
- 長(zhǎng)序列可以允許更多的gap和錯(cuò)配
- 親緣關(guān)系太遠(yuǎn),無(wú)法使用短序列比對(duì),結(jié)果不好
---------------------------------------------------------------
我是手動(dòng)分割線嘿嘿嘿
14 序列拼接簡(jiǎn)介
序列拼接是生物信息分析的核心

測(cè)序reads——序列拼接軟件——拼接結(jié)果
序列拼接存在問(wèn)題:
- 兩條序列的方向
- overlap的大小
- overlap之間存在錯(cuò)配
- 一條序列與多條序列之間存在overlap
- 連接之后是否可以繼續(xù)連接
相關(guān)名詞:reads, pairend與matepair, insertsize, kmer, contig, scaffold...更多生信相關(guān)名詞解釋見(jiàn) notion or 公眾號(hào)
15 序列拼接(未理解透徹,后期需深入了解)
序列拼接可用數(shù)據(jù):
- 兩條pairend關(guān)系reads
- reads之間具有overlap
- reads之間具有pairend關(guān)系
序列拼接兩種算法:
- Overlap-layout-consensus(popular for Sanger reads)
- De bruijn graph(popular for illumina and Solid reads)
短序列拼接步驟:
- 構(gòu)圖pregraph
- 構(gòu)建contig
- 構(gòu)建scaffold(包括map)
- 補(bǔ)洞
詳見(jiàn)其他......
序列拼接軟件:
SOAPdenovo

velvet

SPAdes

Newbler

16 基因組污染分析

基因組污染特征:
- 基因組明顯偏大
- 序列豐度不同
- GC異常
序列唯一性:序列越長(zhǎng)唯一性越高
污染鑒定:
- 與NCBI比對(duì)進(jìn)行鑒定
- 預(yù)測(cè)16S(或18S)進(jìn)行鑒定
污染處理:
由于序列之間存在相似性,豐度存在交叉,無(wú)法準(zhǔn)確區(qū)分開(kāi)污染序列與正常序列。故建議,重新提取樣品進(jìn)行建庫(kù)測(cè)序。
17 RNAseq與meta序列拼接
DNA測(cè)序與RNAseq比較:
- DNA一般為全基因組測(cè)序,而RNA測(cè)序的是轉(zhuǎn)錄出來(lái)的轉(zhuǎn)錄本,都是獨(dú)立斷開(kāi)的片段;
- DNA測(cè)序一般是均勻測(cè)序,基因組上的區(qū)域被均勻覆蓋,而RNA由于存在表達(dá)豐度的差異,所以不均勻;
- DNA全基因組測(cè)序中存在很多重復(fù)序列、干擾序列的拼接,而轉(zhuǎn)錄組中這個(gè)問(wèn)題影響會(huì)小一些。
RNA序列拼接軟件:
Trinity

oases
SOAPdenovo-trans
RNA拼接注意事項(xiàng):
- 拼接結(jié)果中獲取unigene
- 拼接時(shí)要去除duplication
- 表達(dá)定量時(shí)不能去除duplication
宏基因組拼接:
宏基因組(metagenome),也稱微生物環(huán)境基因組或元基因組。
18 序列拼接FAQ
影響拼接的因素:
內(nèi)因:多倍體,基因組雜合,高度重復(fù),低復(fù)雜度,GC偏差等
外因:測(cè)序數(shù)據(jù)量,測(cè)序質(zhì)量,文庫(kù)大小,kmer大小,基因組自身,拼接軟件,閾值設(shè)定
如何改善拼接效果:
- 覆蓋基因組所有位點(diǎn)
- 重新調(diào)整insertsize
- 去除insertsize偏大的pairend?reads
- 調(diào)整kmer大小以及軟件選項(xiàng)參數(shù)閾值
- 混合拼接
不同測(cè)序平臺(tái)之間測(cè)序數(shù)據(jù)混合拼接:

為什么不用短reads直接overlap拼接:
- reads中存在錯(cuò)誤率
- 通過(guò)kmer去除包含reads中錯(cuò)誤的位點(diǎn)
如何選擇kmer大小(軟件也不知道哈哈哈哈):
- reads準(zhǔn)確度越高,選擇大kmer較好
- reads錯(cuò)誤率高,選擇小kmer,reads利用率高
- 基因組本身特點(diǎn),重復(fù)率,測(cè)序深度等因素,都會(huì)對(duì)kmer取值造成一定影響
為什么kmer只能是奇數(shù):
主要是回文序列的影響,取偶數(shù)無(wú)法區(qū)分互補(bǔ)鏈和模板鏈
--------------------------------------------------------
基因組分析開(kāi)始啦!
19 基因預(yù)測(cè)
基因預(yù)測(cè)方法:
- 利用軟件對(duì)物種基因組直接進(jìn)行預(yù)測(cè);
- 通過(guò)同源序列比對(duì),和已知近源物種基因及進(jìn)行比對(duì),將同源比對(duì)去篩選出來(lái)作為基因。
方法比較:
- 從頭預(yù)測(cè):不需要同源參考基因序列直接進(jìn)行預(yù)測(cè),非常方便,適合于新發(fā)現(xiàn)的物種,沒(méi)有很多已知的基因信息。
- 基于同源基因的序列比對(duì):找出的基因更加準(zhǔn)確,但是如果沒(méi)有同源序列,或者同源區(qū)不含有某個(gè)基因的話,就會(huì)漏掉一些基因。
------------------------------------------------------------------
后續(xù)講解均為概況,僅適用于粗略了解,可依據(jù)自身需求進(jìn)行深入學(xué)習(xí)。
20 基因功能注釋
ENCODE計(jì)劃
21 非編碼RNA分析
22 miRNA分析
23 重復(fù)序列分析
24 基因組特殊元件分析
CRISPR,CpG島,操縱子,基因島,啟動(dòng)子
25 共線性分析
-------------------------------------------------------------------
序列比對(duì)、變異檢測(cè),需深入學(xué)習(xí)!
26 變異檢測(cè)
Denovo測(cè)序:如果一個(gè)基因組第一次被測(cè)序出來(lái),我們一般稱之為Denovo測(cè)序,主要是需要拼接其基因組。
重測(cè)序:已有基因組被發(fā)表出來(lái)后,重新測(cè)序的數(shù)據(jù),可以不需要拼接,而直接用測(cè)序的reads進(jìn)行短序列短序列比對(duì)分析,稱為重測(cè)序分析,即文獻(xiàn)中經(jīng)常見(jiàn)到的“re-sequencing”,其實(shí)重測(cè)序本質(zhì)就是找變異。
26 SNP檢測(cè)
27 SV檢測(cè)
28 CorePanGene集構(gòu)建

29 系統(tǒng)發(fā)育樹(shù)構(gòu)建
數(shù)據(jù)上傳!我一定會(huì)盡快用到的!
課程涉及知識(shí)點(diǎn)如果和自己研究方向相關(guān)性較大,建議去看更詳細(xì)的教程進(jìn)行針對(duì)性學(xué)習(xí)。
加油!
祝我們?cè)缛彰摬耍。。?/p>