最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

生物信息快速入門(mén)

2022-04-28 01:24 作者:一只小蠻要  | 我要投稿

看完啦!

老師舉例能力賊牛批,通俗易懂,便于俺們小白理解!


干貨很多,可以幫助我們盡快對(duì)生信分析即將涉及到的內(nèi)容有大致印象,部分細(xì)節(jié)自行進(jìn)行了補(bǔ)充。



1 測(cè)序原理

見(jiàn) notion



2 大片段文庫(kù)

大片段文庫(kù):pairend(文庫(kù)片段大于1k的片段)

小片段文庫(kù):matepair(文庫(kù)片段小于1k的片段)

  • 無(wú)論片段有多大,雙末端測(cè)序只能測(cè)兩端很短的部分(小幾百bp)


大片段測(cè)序

目的:獲得reads之間的物理距離關(guān)系(在序列拼接和基因組結(jié)構(gòu)變異檢測(cè)中有重要作用)。

面臨問(wèn)題:

  1. 無(wú)法PCR太長(zhǎng)的片段
  2. 只測(cè)序很短的序列,合成大片段浪費(fèi)

解決方案:環(huán)化處理,進(jìn)行打斷,選取生物素標(biāo)記片段(包含首尾),接下來(lái)的過(guò)程與小片段處理完全一致。



3 測(cè)序原理


GCbias對(duì)測(cè)序的影響:

會(huì)影響PCR

GC正常范圍:35%~65%

解決方案:PCR-free文庫(kù)(詳見(jiàn)notion or 公眾號(hào)


why不能一直測(cè)序下去?

后期錯(cuò)誤率顯著增加,隨著反應(yīng)進(jìn)行,酶活性下降,反應(yīng)條件發(fā)生較大改變,更重要的是phasing和pre-phasing,會(huì)對(duì)整體信號(hào)造成干擾。


測(cè)序中注意問(wèn)題:

  1. 必須保證DNA質(zhì)量,不能降解
  2. 樣品量要滿足建庫(kù)要求
  3. 要根據(jù)具體樣品特點(diǎn)選擇合適的建庫(kù)測(cè)序策略
  4. 測(cè)序要飽和(詳見(jiàn)下節(jié))


# 生信相關(guān)文件格式介紹詳見(jiàn)notion or 公眾號(hào),eg. fastq, sam, bam and so on


4 測(cè)序飽和度評(píng)估


測(cè)序不飽和的影響:

  1. 對(duì)于DNA基因組測(cè)序來(lái)說(shuō),影響序列拼接
  2. RNAseq定量不準(zhǔn)
  3. 宏基因組不能準(zhǔn)確反映物種的組成



5 數(shù)據(jù)質(zhì)控

指標(biāo):

堿基含量分布(測(cè)序數(shù)據(jù)與基因組GC含量一致)

堿基質(zhì)量分布(eg. 質(zhì)量值>Q20為好堿基,Q20百分比指質(zhì)量值大于等于20的堿基占總堿基的比例。注:Q值是描述單個(gè)堿基,Q20百分比是描述整體堿基)


# 生信相關(guān)軟件使用及其算法詳見(jiàn)notion or 公眾號(hào)


6 測(cè)序數(shù)據(jù)過(guò)濾

去除哪些嘞:

  1. 非“基因組”本身序列(adapter接頭、測(cè)序引物、barcode、index等)
  2. N堿基過(guò)多的reads
  3. 低質(zhì)量的數(shù)據(jù)(eg. 低于Q20堿基占一條reads總堿基的比率)
  4. duplication(打斷不隨機(jī)造成的)
  5. insertsize偏差過(guò)大的reads(可選)


注:

  1. RNAseq與16S測(cè)序的duplication并不是打斷不隨機(jī)造成
  2. 去除duplication會(huì)造成豐度信息丟失



7 短序列比對(duì)

短序列比對(duì)就是將這些測(cè)序的reads重新定位到基因組上,這個(gè)過(guò)程也叫做回帖或者mapping。

比對(duì)情況:

5 reads比對(duì)不到基因組上(0VS0)



8 短序列比對(duì)作用

兩種情況:

  1. 與自身基因組比對(duì)
  2. 計(jì)算每個(gè)位點(diǎn)覆蓋深度
  3. 計(jì)算參考序列覆蓋比率
  4. 與參考基因組比對(duì)
  5. RNA測(cè)序計(jì)算基因表達(dá)量
  6. 宏基因組測(cè)序計(jì)算不同生物的豐度
  7. 變異檢測(cè)


作用

  1. 計(jì)算reads利用率:reads利用率=比對(duì)到目標(biāo)序列的reads數(shù) / 總reads數(shù)
  2. 計(jì)算覆蓋深度與覆蓋比率
  3. 覆蓋深度,coverage depth,也稱為覆蓋度,也叫乘數(shù),是指每個(gè)堿基被測(cè)序的平均次數(shù),是用來(lái)衡量測(cè)序量的首要參數(shù)。
  4. 覆蓋比率,coverage ratio,也稱覆蓋率,指被測(cè)序到的堿基占全基因組大小的比例。覆蓋比率可以用來(lái)計(jì)算親緣關(guān)系。


測(cè)序覆蓋度與物理覆蓋度:

短序列比對(duì)軟件介紹了很多個(gè),以后可深入學(xué)習(xí),不過(guò)是不是只需要了解常用的即可嘞~



9 估計(jì)insertsize

插入片段insertsize大小,也就是文庫(kù)片段的長(zhǎng)度,同樣也是兩條測(cè)序reads的物理距離。

(insertsize大小包括reads長(zhǎng)度)



10 計(jì)算RNAseq基因差異表達(dá)分析

RPKM:

但是可變剪切reads有時(shí)候無(wú)法比對(duì)回去

So,

現(xiàn)在改用TPM了,相較于前兩者計(jì)算結(jié)果更準(zhǔn)確。


比較基因的差異表達(dá):

  1. FC值
  2. FDR校正



11 變異檢測(cè)

處理有歧義的位點(diǎn):

  1. 質(zhì)量值小于Q20
  2. 落在重復(fù)區(qū)域的位點(diǎn)
  3. 低頻的位點(diǎn)
  4. 利用概率模型進(jìn)行過(guò)濾



12 物種組成與豐度計(jì)算

16S高變區(qū)測(cè)序

  1. 數(shù)據(jù)過(guò)濾(注:這里數(shù)據(jù)過(guò)濾不可以去除duplication)
  2. reads拼接為tags
  3. tags聚成OTU(operational taxonomic unit)(可用mothur工具)
  4. OTU進(jìn)行分類
  5. OTU物種分類
  6. 得到物種組成及豐度



13 短序列比對(duì)FAQ

建立索引錯(cuò)誤:

  1. 目標(biāo)序列不能太短,否則無(wú)法建立索引
  2. 序列文件中不要有回車符
  3. 選擇正確的 bwa index 選項(xiàng)


短序列比對(duì)的資源消耗:

使用bam來(lái)減少數(shù)據(jù)存儲(chǔ)


如何提高比對(duì)效率:

  1. 完善軟件算法
  2. 提高計(jì)算機(jī)硬件資源
  3. 比對(duì)前要對(duì)數(shù)據(jù)進(jìn)行處理
  4. 將數(shù)據(jù)拆分合并提高比對(duì)效率


短序列比對(duì)與長(zhǎng)序列比對(duì)差別:

  1. 長(zhǎng)序列是比對(duì)多少的問(wèn)題,短序列是比對(duì)有無(wú)的問(wèn)題
  2. 長(zhǎng)序列可以允許更多的gap和錯(cuò)配
  3. 親緣關(guān)系太遠(yuǎn),無(wú)法使用短序列比對(duì),結(jié)果不好



---------------------------------------------------------------

我是手動(dòng)分割線嘿嘿嘿



14 序列拼接簡(jiǎn)介

序列拼接是生物信息分析的核心

測(cè)序reads——序列拼接軟件——拼接結(jié)果


序列拼接存在問(wèn)題:

  1. 兩條序列的方向
  2. overlap的大小
  3. overlap之間存在錯(cuò)配
  4. 一條序列與多條序列之間存在overlap
  5. 連接之后是否可以繼續(xù)連接


相關(guān)名詞:reads, pairend與matepair, insertsize, kmer, contig, scaffold...更多生信相關(guān)名詞解釋見(jiàn) notion or 公眾號(hào)



15 序列拼接(未理解透徹,后期需深入了解)

?
23-pregraph P23 - 00:15
?

序列拼接可用數(shù)據(jù):

  1. 兩條pairend關(guān)系reads
  2. reads之間具有overlap
  3. reads之間具有pairend關(guān)系


序列拼接兩種算法:

  1. Overlap-layout-consensus(popular for Sanger reads)
  2. De bruijn graph(popular for illumina and Solid reads)


短序列拼接步驟:

  1. 構(gòu)圖pregraph
  2. 構(gòu)建contig
  3. 構(gòu)建scaffold(包括map)
  4. 補(bǔ)洞


詳見(jiàn)其他......


序列拼接軟件:

SOAPdenovo

velvet

SPAdes

Newbler



16 基因組污染分析

基因組污染特征:

  1. 基因組明顯偏大
  2. 序列豐度不同
  3. GC異常


序列唯一性:序列越長(zhǎng)唯一性越高


污染鑒定:

  1. 與NCBI比對(duì)進(jìn)行鑒定
  2. 預(yù)測(cè)16S(或18S)進(jìn)行鑒定



污染處理:

由于序列之間存在相似性,豐度存在交叉,無(wú)法準(zhǔn)確區(qū)分開(kāi)污染序列與正常序列。故建議,重新提取樣品進(jìn)行建庫(kù)測(cè)序。



17 RNAseq與meta序列拼接

DNA測(cè)序與RNAseq比較:

  1. DNA一般為全基因組測(cè)序,而RNA測(cè)序的是轉(zhuǎn)錄出來(lái)的轉(zhuǎn)錄本,都是獨(dú)立斷開(kāi)的片段;
  2. DNA測(cè)序一般是均勻測(cè)序,基因組上的區(qū)域被均勻覆蓋,而RNA由于存在表達(dá)豐度的差異,所以不均勻;
  3. DNA全基因組測(cè)序中存在很多重復(fù)序列、干擾序列的拼接,而轉(zhuǎn)錄組中這個(gè)問(wèn)題影響會(huì)小一些。


RNA序列拼接軟件:

Trinity

oases

SOAPdenovo-trans


RNA拼接注意事項(xiàng):

  1. 拼接結(jié)果中獲取unigene
  2. 拼接時(shí)要去除duplication
  3. 表達(dá)定量時(shí)不能去除duplication


宏基因組拼接:

宏基因組(metagenome),也稱微生物環(huán)境基因組或元基因組。



18 序列拼接FAQ

影響拼接的因素:

內(nèi)因:多倍體,基因組雜合,高度重復(fù),低復(fù)雜度,GC偏差等

外因:測(cè)序數(shù)據(jù)量,測(cè)序質(zhì)量,文庫(kù)大小,kmer大小,基因組自身,拼接軟件,閾值設(shè)定


如何改善拼接效果:

  1. 覆蓋基因組所有位點(diǎn)
  2. 重新調(diào)整insertsize
  3. 去除insertsize偏大的pairend?reads
  4. 調(diào)整kmer大小以及軟件選項(xiàng)參數(shù)閾值
  5. 混合拼接


不同測(cè)序平臺(tái)之間測(cè)序數(shù)據(jù)混合拼接:


為什么不用短reads直接overlap拼接:

  1. reads中存在錯(cuò)誤率
  2. 通過(guò)kmer去除包含reads中錯(cuò)誤的位點(diǎn)


如何選擇kmer大小(軟件也不知道哈哈哈哈):

  1. reads準(zhǔn)確度越高,選擇大kmer較好
  2. reads錯(cuò)誤率高,選擇小kmer,reads利用率高
  3. 基因組本身特點(diǎn),重復(fù)率,測(cè)序深度等因素,都會(huì)對(duì)kmer取值造成一定影響


為什么kmer只能是奇數(shù):

主要是回文序列的影響,取偶數(shù)無(wú)法區(qū)分互補(bǔ)鏈和模板鏈


--------------------------------------------------------

基因組分析開(kāi)始啦!



19 基因預(yù)測(cè)

基因預(yù)測(cè)方法:

  1. 利用軟件對(duì)物種基因組直接進(jìn)行預(yù)測(cè);
  2. 通過(guò)同源序列比對(duì),和已知近源物種基因及進(jìn)行比對(duì),將同源比對(duì)去篩選出來(lái)作為基因。


方法比較:

  1. 從頭預(yù)測(cè):不需要同源參考基因序列直接進(jìn)行預(yù)測(cè),非常方便,適合于新發(fā)現(xiàn)的物種,沒(méi)有很多已知的基因信息。
  2. 基于同源基因的序列比對(duì):找出的基因更加準(zhǔn)確,但是如果沒(méi)有同源序列,或者同源區(qū)不含有某個(gè)基因的話,就會(huì)漏掉一些基因。


------------------------------------------------------------------

后續(xù)講解均為概況,僅適用于粗略了解,可依據(jù)自身需求進(jìn)行深入學(xué)習(xí)。


20 基因功能注釋

ENCODE計(jì)劃

?
34-基因功能注釋 P34 - 00:03
?

21 非編碼RNA分析

?
35-非編碼RNA分析 P35 - 00:02
?

22 miRNA分析

?
36-小RNA分析 P36 - 00:02
?

23 重復(fù)序列分析

?
37-重復(fù)序列分析 P37 - 00:02
?

24 基因組特殊元件分析

CRISPR,CpG島,操縱子,基因島,啟動(dòng)子

?
38-其余基因組特征分析 P38 - 00:07
?

25 共線性分析

?
39-共線性分析 P39 - 00:13
?


-------------------------------------------------------------------

序列比對(duì)、變異檢測(cè),需深入學(xué)習(xí)!



26 變異檢測(cè)

Denovo測(cè)序:如果一個(gè)基因組第一次被測(cè)序出來(lái),我們一般稱之為Denovo測(cè)序,主要是需要拼接其基因組。

重測(cè)序:已有基因組被發(fā)表出來(lái)后,重新測(cè)序的數(shù)據(jù),可以不需要拼接,而直接用測(cè)序的reads進(jìn)行短序列短序列比對(duì)分析,稱為重測(cè)序分析,即文獻(xiàn)中經(jīng)常見(jiàn)到的“re-sequencing”,其實(shí)重測(cè)序本質(zhì)就是找變異。


26 SNP檢測(cè)

?
45-SNP檢測(cè) P45 - 00:04
?

27 SV檢測(cè)

?
46-SV檢測(cè) P46 - 00:02
?

28 CorePanGene集構(gòu)建

?
47-CorePangene集構(gòu)建 P47 - 00:04
?

29 系統(tǒng)發(fā)育樹(shù)構(gòu)建

?
49-系統(tǒng)發(fā)育樹(shù)構(gòu)建 P49 - 00:09
?


數(shù)據(jù)上傳!我一定會(huì)盡快用到的!




課程涉及知識(shí)點(diǎn)如果和自己研究方向相關(guān)性較大,建議去看更詳細(xì)的教程進(jìn)行針對(duì)性學(xué)習(xí)。


加油!

祝我們?cè)缛彰摬耍。。?/p>







生物信息快速入門(mén)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
简阳市| 武隆县| 凤冈县| 喀什市| 南丰县| 中阳县| 元氏县| 通许县| 板桥市| 大名县| 湘潭县| 灌云县| 吕梁市| 玉门市| 东兰县| 天柱县| 溆浦县| 阿拉善右旗| 德令哈市| 临猗县| 海淀区| 浮山县| 衡南县| 台江县| 疏附县| 新余市| 新闻| 襄樊市| 台北县| 颍上县| 金乡县| 祁阳县| 五大连池市| 桐梓县| 平度市| 望谟县| 年辖:市辖区| 新巴尔虎左旗| 紫云| 峨山| 昆明市|