【推薦課程】山東大學生物信息學(高清原版課程帶全套課件)

聽完啦!
實不相瞞,前期俺有一種聽評書的感覺哈哈哈哈哈哈!
這個動畫制作屬實牛批,俺準備偷師了哈哈哈哈!
老師幽默風趣,可以把抽象的東西用通俗易懂的例子進行解釋,使復雜的知識簡單化。
不過涉及內容較淺,適用于粗略了解生信領域。
生物信息學 - 學習筆記
0 神馬是生物信息學
1 生物數(shù)據(jù)庫
人基因組有 3G bp = 3,000,000,000 bp


1.1 PubMed 文獻數(shù)據(jù)庫

1.2 一級核酸數(shù)據(jù)庫

1.2.1 INSDC = Genbank + ENA + DDBJ

如何解讀?【序列信息注釋條目意義】FASTA
eg. GenBank
原核生物核酸序列
真核生物核酸序列mRNA
真核生物核酸序列DNA
1.2.2 基因組數(shù)據(jù)庫:Ensemble

eg. 在基因組里從染色體入手找到DUT基因
1.2.3 微生物宏基因組數(shù)據(jù)庫:JCVI

- 微生物基因組牛批?。℉MP)
1.3 二級核酸數(shù)據(jù)庫


1.4 一級蛋白質序列數(shù)據(jù)庫


我們最常用的是UniProtKB/Swiss-Prot。
eg. UniProtKB
1.5 一級蛋白質結構數(shù)據(jù)庫

eg. dUTPase
1.6 二級蛋白質數(shù)據(jù)庫
1.6.1 Pfam

1.6.2 CATH

1.6.3 SCOP2

1.7 專用數(shù)據(jù)庫
1.7.1 KEGG
1.7.2 OMIM
2 序列比較
2.1 what is sequence?
sequence就是個string。
FASTA格式:
第一行:大于號加名稱或其他注釋
第二行:以后每行60/80/XX個字母
2.2 序列相似性
相似的序列——相似的結構——相似的功能
可預測未知結構和功能的蛋白質的結構和功能
序列一致度與相似度:
一致度(identity):如果兩個序列長度相同,那么它們的一致度定義為它們對應位置上相同的殘基的數(shù)目占總長度的百分比。
相似度(similarity):如果那么它們的相似度定義為它們對應位置上相似的殘基與相同的殘基的數(shù)目和占總長度的百分比。
那么,怎么個樣子算相似嘞?
殘基兩兩相似的量化關系被替換記分矩陣所定義。
2.3 替換記分矩陣
substitution matrix:反映殘基之間相互替換率的矩陣,它描述了殘基兩兩相似的量化關系。分為DNA替換記分矩陣和蛋白質替換記分矩陣。
3種常見DNA序列的替換記分矩陣
- 等價矩陣(unitary matrix):最簡單的替換記分矩陣,其中,相同核苷酸之間的匹配得分為1,不同核苷酸間的替換得分為0。由于不含有堿基的理化信息和不區(qū)別對待不同的替換,在實際的序列比較中較少使用。
- 轉換-顛換矩陣(transition-transversion matrix):核酸的堿基按照環(huán)結構特征被劃分為兩類,一類是嘌呤,有兩個環(huán);另一類是嘧啶,只有一個環(huán)。如果DNA堿基的替換保持環(huán)數(shù)不變,則為轉換;如果環(huán)數(shù)發(fā)生變化,則成為顛換。在進化過程中,轉換發(fā)生的頻率遠比顛換高。為了反映這一情況,通常該矩陣中轉換的得分為-1,而顛換的得分為-5。
- BLAST矩陣:經(jīng)過大量實際對比發(fā)現(xiàn),如果使被比對的兩個核苷酸相同時得分為+5,反之為-4,則比對效果較好。這個矩陣廣泛地被DNA序列比較所采用。
3種常見蛋白質序列的替換記分矩陣
- 等價矩陣(unitary matrix):與DNA等價矩陣道理相同,相同氨基酸之間的匹配得分為1。不同氨基酸間的替換得分為0。在實際的序列比對中較少使用。
- PAM矩陣(Dayhoff突變數(shù)據(jù)矩陣):PAM矩陣基于進化原理。如果兩種氨基酸替換頻繁,說明自然界易接受這種替換,那么這對氨基酸替換得分就應該高。PAM矩陣是目前蛋白質序列比較中最廣泛使用記分方法之一,基礎的PAM-1矩陣反應的是進化產生的每一百個氨基酸平均發(fā)生一個突變的量值(統(tǒng)計方法得到)。PAM-1自乘n次,可以得到PAM-n,即發(fā)生了更多次突變。
- BLOSUM矩陣(blocks substitution matrix):BLOSUM矩陣是通過關系較遠的序列來獲得矩陣元素的。PAM-1矩陣的產生是基于相似度較高(>85%)的序列比對,那些進化距離較遠的矩陣,如PAM-250是通過PAM-1自乘得到的。即,BLOSUM矩陣的相似度是根據(jù)真實數(shù)據(jù)產生的,而PAM矩陣是通過矩陣自乘外推來的。和PAM矩陣一樣,BLOSUM矩陣也有不同編號,如BLOSUM-80、BLOSUM-62。80代表該矩陣是由一致度≧80%的序列計算而來。同理,62指該矩陣由一制度≧62%的序列計算而來。
選PAM-?還是BLOSUM-?


對于關系較遠的序列之間的比較,由于PAM-250是推算而來的,所以其準確度受到一定限制,BLOSUM-45更具優(yōu)勢。對于關系較近的序列之間的比較,用PAM或BLOSUM矩陣做出的比對結果,差別不大。
最常用:BLOSUM-62
其他2種蛋白質序列的替換記分矩陣
- 遺傳密碼矩陣(genetic code matrix, GCM):遺傳密碼矩陣通過計算一個氨基酸轉換成另一個氨基酸所需的密碼子變化的數(shù)目而得到,矩陣的值對應為此付出的代價。如果變化一個堿基,就可以使一個氨基酸的密碼子轉換為另一個氨基酸的密碼子,則這兩個氨基酸的替換代價為1;如果需要兩個堿基的改變,則替換代價為2;如果三個密碼子是都要改變則代價為3。 遺傳密碼矩陣常用于進化距離的計算,其優(yōu)點是計算結果可以直接用于繪制進化樹,但是它在蛋白質序列比對(尤其是相似程度很低的蛋白質序列比對中)很少被使用。
- 疏水矩陣:根據(jù)氨基酸殘基替換前后疏水性的變化而得到得分矩陣。若一次氨基酸替換疏水特性不發(fā)生太大的變化,則這種替換得分高,否則替換得分低。該矩陣物理意義明確,有一定的理化性質依據(jù),適用于偏重蛋白質功能方面的序列比對。
那么問題來了,如果兩個序列的長度不同,該怎么計算一致度與相似度呢?
且聽后后后面詳解!
2.4 雙序列比對
比較兩個序列的方法:打點法,序列比對法
2.4.1 打點法
最簡單的比較兩個序列的方法,理論上可以用紙筆來完成。俗稱,有手就行。
連續(xù)的對角線及對角線的平行線代表兩條序列中相同的區(qū)域。

可以用一條序列自己對自己打點,從而可以發(fā)現(xiàn)序列中重復的片段。這樣的打點矩陣必然是對稱的,并且有一條主對角線在橫向或縱向上,與主對角線平行的短平行線所對應的序列片段就重復的部分。

用這種方法,我們可以發(fā)現(xiàn)串聯(lián)重復序列(tandem repeat)。
短串聯(lián)重復序列(short tandem repeat, STR)也叫做微衛(wèi)星DNA,是一類廣泛存在于真核生物基因組中的DNA串聯(lián)重復序列。它有2-6bp的核心序列組成,重復次數(shù)通常在15-30次。STR具有高度多態(tài)性,即存在重復次數(shù)的個體間差異,而且這種差異在基因遺傳過程中一般遵循孟德爾共顯性遺傳規(guī)律,所以它被廣泛用于法醫(yī)學個體識別、親子鑒定等領域。
實際操作方法:eg. Dotlet——滑窗
2.4.2 序列比對法
序列比對(alignment),也叫對位排列、聯(lián)配、對齊等。運用特定的算法找出兩個或多個序列之間產生最大相似度得分的空格插入和序列排列方案。

全局比對(global alignment):
Needleman-Wunsch算法
局部比對(local alignment):
Smith-Waterman算法
哎嘿!之前的問題回來咯!
如果兩個序列的長度不同,該怎么計算一致度與相似度嘞?
無論兩個序列長度是否相同,都要先做雙序列全局比對,然后根據(jù)比對結果及比對長度計算它們的一致性和相似度。
2.5 在線雙序列比對工具
EMBL全局雙序列比對工具
2.6 BLAST搜索

分類:
BLAST實際上是綜合在一起的一組工具的統(tǒng)稱,它不僅可以用于直接對蛋白質序列數(shù)據(jù)庫和核酸序列數(shù)據(jù)庫進行搜索,而且可以將待搜索核酸序列翻譯成蛋白質序列后再進行搜索,或反之,以提高搜索效率。


根據(jù)搜索算法分:標準BLAST,PSI-BLAST,PHI-BLAST等。
eg. NCBI-BLAST
PSI BLAST(position-specific iterated BLAST, 位點特異性迭代BLAST)

PHI-BLAST(pattern-hit initiated BLAST, 模式識別BLAST)


其他BLAST——Smart BLAST
各種免費搜索工具
Blast off!
2.7 多序列比對
multiple alignment,對兩條以上的生物序列進行全局比對。
用途:
- 確認:一個未知的序列是否屬于某個家族。
- 建立:系統(tǒng)發(fā)生樹,查看物種間或者序列間的關系。
- 模式識別:一些特別保守的序列片段往往對應重要的功能區(qū)域,通過多序列比對可以找到這些保守片段。
- 已知推未知:把已知有特殊功能的序列片段通過多序列比對做成模型,然后根據(jù)該模型推測未知的序列片段是否也具有該功能。
- 其他:預測蛋白質/RNA二級結構
- 等等......
算法:

要求:
- 太多的序列受不了。一般10~15條序列,最好別超過50條。
- 關系太遠的序列受不了。兩兩之間序列相似度低于30%的一組序列,做多序列比對會有麻煩。
- 關系太近的序列受不了。兩兩之間序列相似度大于90%的序列,有再多條都等于只有一條。
- 短序列受不了。多序列比對支持一組差不多長的序列,個別很短的序列屬于搗亂分子。
- 有重復域的序列受不了。如果序列里包含重復域,大多數(shù)序列比對的程序都會出錯,甚至崩潰。
起名建議:

2.8 在線多序列比對工具
EMBL多序列比對工具
特定工具可以進行格式轉換得到我們所需要的輸出格式。
2.9 多序列比對美化工具
Jalview,還有其他......
2.10 尋找保守區(qū)域
序列標示圖(sequence logo)—— WebLogo 3
虛列基序(sequence motif)—— MEME
PRINTS指紋圖譜數(shù)據(jù)庫
3 分子進化與系統(tǒng)發(fā)生
3.1 基本概念
3.1.1 分子進化
利用軟件,從分子水平上(DNA、RNA、蛋白質序列)基于某一個特定的分子在不同物種中的序列差異來構建各種生物間的系統(tǒng)發(fā)生樹,其準確度依賴于軟件的優(yōu)劣及參數(shù)的設置。
基本假設:(1)DNA、RNA或蛋白質序列包含了物種的所有進化史信息;(2)分子鐘理論:一個特定蛋白質的進化變異的速度在不同物種中是基本恒定的。即兩個蛋白質的序列越相近,它們距離共同祖先就越近。
3.1.2 不同的同源
同源(Homologs):來源于共同祖先的相似的序列為同源序列。相似序列并不一定是同源序列。
- 直系同源(orthologs):來自于不同物種的由垂直家系(物種形成)進化而來的基因,并且典型地保留了與原始基因相同的功能。
- 旁系同源(paralogs):在同一物種中的來源于基因復制的基因,可能會進化出新的原來有關的功能。
- 異同源(Xenologs):通過水平基因轉移,來源于共生或病毒侵染所產生的相似基因。

相似度與同源性:
相似度——可量化
同源性——不可量化
3.1.3 生命網(wǎng)
大規(guī)?;蚪M測序產生大量物種的基因組信息,表明基因在物種之間轉換,形成一個雜亂無章的“生命網(wǎng)”。
水平基因轉移(horizontal gene transfer):是指生物將遺傳物質傳遞給其他細胞而非其子代細胞的過程。
3.2 系統(tǒng)發(fā)生樹
構建系統(tǒng)發(fā)生樹(phylogenetic tree)的意義:
- 對于一個未知的基因或蛋白質序列,確定其親緣關系最近的物種;
- 預測一個新發(fā)現(xiàn)的基因或蛋白質的功能;
- 有助于預測一個分子功能的走勢;
- 追溯一個基因的起源。



3.3 系統(tǒng)發(fā)生樹的構建



用什么序列建樹嘞?DNA還是蛋白質?
- 如果DNA序列兩兩間的一致度大于70%,就選用DNA序列。
- 如果DNA序列兩兩間一致度小于70%的話,DNA序列和蛋白質序列都可以用。
3.4 MEGA 7 構建NJ樹
4 蛋白質結構預測與分析
4.1 蛋白質的二級結構
DSSP(definition of secondary structure of proteins),即,蛋白質的二級結構定義詞典。DSSP并不預測二級結構,而是根據(jù)二級結構的定義對已經(jīng)測定三級結構的蛋白質的各個位置指認出事哪種二級結構。
如何從PDB獲取二級結構信息?
軟件預測二級結構
4.2 蛋白質的三級結構
獲取
4.3 三級結構可視化軟件VMD
4.4 計算方法預測三級結構
4.4.1 同源建模法(homolog modeling)
SWISS-MODEL
原理:相似的氨基酸序列對應著相似的蛋白質結構。
注:目標序列與模板序列間的一致度要≧30%。
BTW:會有一些特例情況,雖然序列一致度達到很高水平,但是結構卻并相同。
4.4.2 穿線法(threading)
I-TASSER
原理:不相似的氨基酸序列也可以對應著相似的蛋白質結構。
Zhang Lab!牛批!
4.4.3 從頭及算法(ab initio)
QUARK
原理:1973年《Science》Anfinsen:蛋白質的三維結構決定于自身氨基酸序列,并且處于最低自由能狀態(tài)。
Zhang Lab!牛批!
4.4.4 綜合法(ensemble method)
ROBETTA
原理:綜合了同源建模法、穿線法和從頭計算法等多種方法,將氨基酸序列分段,情況不同的片段采用不同的方法。

4.4.5 模型質量評估
模型質量評估軟件(model quality assessment programs, MQAPs)
對于通過計算方法獲得的模型,必須進行必要的模型質量評估,以確定模型的可靠性。模型質量評估軟件并不比較預測模型跟真實結構的差別大小,而是從空間幾何學、立體化學和能量分布三方面評估一個模型的自身合理性。

4.5 三級結構的比對
結構比對就是對蛋白質三維空間結構的相似性進行比較,它是蛋白質結構分析的重要手段之一。
- 可用于探索蛋白質進化及同源關系;
- 改進序列比對的精度;
- 改進蛋白質結構預測工具;
- 為蛋白質結構分類提供依據(jù);
- 幫助了解蛋白質功能。
結果比對的結果可以用很多種參數(shù)來衡量,最常用的是root mean squared deviations(RMSD)。如果兩個結構的RMSD為0埃,那么它們結構一致,可以完全重合;一般來說RMSD小魚3埃時,認為兩個結構相似。
eg. SuperPose, SPDBV
4.6 蛋白質分子表面性質

eg. VMD創(chuàng)建psf文件
4.7 四級結構的獲取
4.8 蛋白質-蛋白質 分子對接
eg. ZDOCK,PDBePISA
4.9 蛋白質-小分子 分子對接
eg. AutoDock4
4.10 虛擬篩選 & 反向對接
虛擬篩選(virtual screening, VS):也稱計算機篩選,即在進行生物活性篩選之前,在計算機上對化合物分子進行預篩選,以降低實際篩選化合物的數(shù)目,同時提高先導化合物的發(fā)現(xiàn)效率。
eg. ZINC數(shù)據(jù)庫,AutoDock4,Vina
反向對接(target fishing):是通過把一個小分子與多個靶標蛋白進行分子對接,尋找潛在的靶標。
eg. scPDB數(shù)據(jù)庫
4.11 分子動力學模擬
molecular dynamic simulation, MDS
用計算機來模擬原子及分子的物理運動過程。
重頭戲來啦?。?!
5 基因組學與測序技術
嗯......似乎這一章主要是科普......
可以忽略或跳過,當然不了解的話聽一下還是超有用的,也可以選擇去聽關于測序技術介紹更詳細的課程。
僅代表本人觀點,不具普適性!
6 貝葉斯和二元預測
貝葉斯:兩個事件互為條件時發(fā)生概率的問題。
講的比較簡單,深入學習需要其他課程。
二元預測
7 基本序列算法
序列算法:為研究生物序列而開發(fā)出的計算復雜度盡可能低的算法。
eg. 如何從序列中快速準備地找到重復序列
生物序列:包括核酸序列、蛋白質序列或其他由生物問題轉化而來的數(shù)字串或字符串。
構建后綴樹:
使用后綴樹:
最高分子序列:
8 數(shù)據(jù)挖掘
8.1 數(shù)據(jù)庫系統(tǒng)
8.2 機器學習
主要是設計和分析一些讓計算機可以自動“學習“”的算法。這些算法是一類從數(shù)據(jù)中獲得規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)進行預測的算法。(用向量描述物體)
8.2.1 機器學習常見任務
分類(classification):有背景知識,根據(jù)背景知識判斷新物體屬于哪一類。
聚類(clustering):沒有背景知識,對于一組新物體,通過判斷其屬性,將所有新物體分組。
回歸(regression):有背景知識,根據(jù)背景知識推導出x1, x2, ... ,xn與y之間的定量關系,并據(jù)此計算新物體的y。
8.2.1 機器學習常見算法
最近鄰居(neighbor joining):將已知物體根據(jù)自身的特征屬性標記在坐標系中,再將未知物體根據(jù)其自身的特征屬性也標記在坐標系中。新物體里哪個已知物體最近,新物體就是哪種已知物體。
貝葉斯(bayes theorem):見前第6章節(jié)
支持向量機(support vector machine):支持向量機是一個二類分類模型,但也可以擴展為多類分類。其基于間隔最大化的特點可以使它更加靈活地處理線性或非線性的分類問題。
決策樹(decision tree):決策樹是一個預測模型,它表示對象屬性和對象值之間的一種映射,樹中的每一個節(jié)點表示對象屬性的判斷條件,其分支表示符合節(jié)點條件的對象。樹的葉子節(jié)點表示對象所屬的預測結果。
人工神經(jīng)網(wǎng)絡、遺傳算法、其他......
數(shù)據(jù)挖掘軟件:WEKA(懷卡托智能分析環(huán)境)
后續(xù)姐姐就不看啦哈哈哈哈哈哈哈哈哈哈......