生物信息學(xué)復(fù)習(xí)題
生物信息學(xué),
一、名詞解釋:
1、生物信息學(xué):生物分子信息的獲取、存貯、分析和利用;以數(shù)學(xué)為基礎(chǔ),應(yīng)用計(jì)算機(jī)技術(shù),研究生物學(xué)數(shù)據(jù)的科學(xué)。
2、相似性(similarity):兩個(gè)序列(核酸、蛋白質(zhì))間的相關(guān)性。
3、同源性(homology):生物進(jìn)化過(guò)程中源于同一祖先的分支之間的關(guān)系。
4、同一性(identity):兩個(gè)序列(核酸、蛋白質(zhì))間未發(fā)生變異序列的關(guān)系。
5、序列比對(duì)(alignment):為確定兩個(gè)或多個(gè)序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。
6、生物數(shù)據(jù)庫(kù)檢索(database query,數(shù)據(jù)庫(kù)查詢):對(duì)序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)庫(kù)中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。
7、生物數(shù)據(jù)庫(kù)搜索(database search):通過(guò)特定序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)中與待檢序列具有一定程度相似性的序列。
二、簡(jiǎn)答題:
1、分子生物學(xué)的三大核心數(shù)據(jù)庫(kù)是什么?它們各有何特點(diǎn)?
GenBank核酸序列數(shù)據(jù)庫(kù);SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫(kù);PDB生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù);
2、簡(jiǎn)述生物信息學(xué)的發(fā)生和發(fā)展。
20世紀(jì)50年代,生物信息學(xué)開(kāi)始孕育;
20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來(lái);
20世紀(jì)70年代,生物信息學(xué)的真正開(kāi)端;
20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方;
20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機(jī)構(gòu)和生物信息數(shù)據(jù)庫(kù);
20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展。
3、生物信息學(xué)的主要方法和技術(shù)是什么?
數(shù)學(xué)統(tǒng)計(jì)方法;動(dòng)態(tài)規(guī)劃方法;機(jī)器學(xué)習(xí)與模式識(shí)別技術(shù);數(shù)據(jù)庫(kù)技術(shù)及數(shù)據(jù)挖掘;人工神經(jīng)網(wǎng)絡(luò)技術(shù);專家系統(tǒng);分子模型化技術(shù);量子力學(xué)和分子力學(xué)計(jì)算;生物分子的計(jì)算機(jī)模擬;因特網(wǎng)(Internet)技術(shù)
4、常見(jiàn)的DNA測(cè)序方法有哪些?各有何技術(shù)特點(diǎn)和優(yōu)缺點(diǎn)?
Maxam-Gilbert DNA化學(xué)降解法:
優(yōu)點(diǎn):可測(cè)完全未知序列及CG富含區(qū);
缺點(diǎn):操作繁瑣;
Sanger雙脫氧鏈終止法:
優(yōu)點(diǎn):簡(jiǎn)便,可測(cè)較長(zhǎng)片段;
缺點(diǎn):需已知部分序列或加接頭;
焦磷酸測(cè)序:
優(yōu)點(diǎn):廉價(jià)、高通量;
缺點(diǎn):一次測(cè)序片段短。
5、分子生物學(xué)數(shù)據(jù)庫(kù)有哪些類型?各有何特點(diǎn)?
基因組數(shù)據(jù)庫(kù):基因組測(cè)序
核酸序列數(shù)據(jù)庫(kù):核酸序列測(cè)定
一次數(shù)據(jù)庫(kù):蛋白質(zhì)序列數(shù)據(jù)庫(kù):蛋白質(zhì)序列測(cè)定。生物大分子(蛋白質(zhì))三維結(jié)構(gòu)數(shù)據(jù)庫(kù):X-衍射和核磁共振
特點(diǎn):數(shù)量少,容量大,更新快
二次數(shù)據(jù)庫(kù):上述四類數(shù)據(jù)庫(kù)和文獻(xiàn)資料為基礎(chǔ)構(gòu)建
特點(diǎn):數(shù)量多,容量小,更新慢
6、簡(jiǎn)述NCBI Entrez系統(tǒng)的功能。
高級(jí)檢索系統(tǒng);查找核酸、蛋白、文獻(xiàn)、結(jié)構(gòu)、基因組序列、大分子三維結(jié)構(gòu)、突變數(shù)據(jù)、探針序列、單核苷酸多態(tài)性等數(shù)據(jù)。
7、簡(jiǎn)述NCBI BLAST的功能和種類。
序列相似性比對(duì)工具;
對(duì)核酸:普通blastn,對(duì)高度相似序列megablast;
對(duì)蛋白質(zhì):普通blastp,對(duì)保守域rpsblast;
對(duì)人工翻譯序列:核酸翻譯序列對(duì)蛋白質(zhì)序列blastx,蛋白質(zhì)對(duì)翻譯序列tblastn,核酸翻譯序列對(duì)翻譯序列tblastx;
其它:基因組blast,基因表達(dá)序列搜索GEO blast,序列兩兩比對(duì)……
三、論述題:
1、什么是生物信息學(xué)?生物信息學(xué)有哪些主要應(yīng)用領(lǐng)域?
生物分子信息的獲取、存貯、分析和利用;以數(shù)學(xué)為基礎(chǔ),應(yīng)用計(jì)算機(jī)技術(shù),研究生物學(xué)數(shù)據(jù)的科學(xué)。
生物分子數(shù)據(jù)的收集與管理;數(shù)據(jù)庫(kù)搜索及序列比較;基因組序列分析;基因表達(dá)數(shù)據(jù)的分析與處理;蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。
2、生物信息學(xué)在醫(yī)藥領(lǐng)域有什么應(yīng)用?
輔助診斷(遺傳病,HLA分型);
研究藥物作用機(jī)制,輔助新藥物開(kāi)發(fā)和制造。
3、人類基因組計(jì)劃中主要使用的那些生物信息學(xué)手段?它們對(duì)人類基因組計(jì)劃發(fā)揮了哪些重大作用?
單一測(cè)序結(jié)果判讀;contig和chromosome拼接;識(shí)別基因區(qū)及其調(diào)控區(qū);尋找基因相互作用的時(shí)空關(guān)系;
4、試述蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的主要策略和方法。
策略:
目標(biāo):判斷每一段中心的殘基是否處于a螺旋、b折疊、b轉(zhuǎn)角(或其它狀態(tài))之一的二級(jí)結(jié)構(gòu)態(tài),即三態(tài)。
a、理論分析法(從頭計(jì)算法):通過(guò)理論計(jì)算(分子力學(xué)、分子動(dòng)力學(xué)等)進(jìn)行結(jié)構(gòu)預(yù)測(cè)。
優(yōu)點(diǎn):不需要經(jīng)驗(yàn)數(shù)據(jù),由一級(jí)結(jié)構(gòu)推測(cè)高級(jí)結(jié)構(gòu)
缺點(diǎn):天然和未折疊蛋白間能級(jí)差很小 (kcal/mol);蛋白質(zhì)可能的構(gòu)想空間龐大,針對(duì)蛋白質(zhì)折疊的計(jì)算量巨大;計(jì)算模型中力場(chǎng)參數(shù)不準(zhǔn)確。
b、統(tǒng)計(jì)方法:對(duì)已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)分析,建立序列到結(jié)構(gòu)的映射模型,進(jìn)而根據(jù)映射模型對(duì)未知結(jié)構(gòu)的蛋白質(zhì)直接從氨基酸預(yù)測(cè)結(jié)構(gòu)。
c經(jīng)驗(yàn)性方法:根據(jù)一定序列形成一定結(jié)構(gòu)的傾向進(jìn)行結(jié)構(gòu)預(yù)測(cè)。通過(guò)對(duì)已知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)各種氨基酸形成不同二級(jí)結(jié)構(gòu)的傾向,從而形成一系列關(guān)于二級(jí)結(jié)構(gòu)預(yù)測(cè)的規(guī)律。
d結(jié)構(gòu)規(guī)律提取方法:從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中提取關(guān)于蛋白質(zhì)結(jié)構(gòu)形成的一般性規(guī)律,指導(dǎo)建立未知結(jié)構(gòu)的蛋白質(zhì)模型。
e同源模型化方法:通過(guò)同源序列分析或模式匹配,預(yù)測(cè)蛋白質(zhì)的空間結(jié)構(gòu)或結(jié)
構(gòu)單元。
方法:
1、Chou-Fasman方法;(基于單個(gè)氨基酸殘基統(tǒng)計(jì)的經(jīng)驗(yàn)參數(shù)方法,由Chou 和Fasman在20世紀(jì)70年代提出來(lái)。通過(guò)統(tǒng)計(jì)分析,獲得每個(gè)殘基出現(xiàn)于特定二級(jí)結(jié)
構(gòu)構(gòu)象的傾向性因子,進(jìn)而利用這些傾向性因子預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。)
2 GOR方法;(是一種基于信息論和貝葉斯統(tǒng)計(jì)學(xué)的方法GOR將蛋白質(zhì)序列當(dāng)作一連串的信息值來(lái)處理;GOR方法不僅考慮被預(yù)測(cè)位置本身氨基酸殘基種類的影響,而且考慮相鄰殘基種類對(duì)該位置構(gòu)象的影響)
3、基于氨基酸疏水性的方法;4、最鄰近方法;5、人工神經(jīng)網(wǎng)絡(luò)方法;6、綜合方法:7、利用進(jìn)化信息預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)。
1. 生物信息學(xué):
1)生物信息學(xué)包含了生物信息的獲取、處理、分析、和解釋等在內(nèi)的一門(mén)交叉學(xué)科;
2)它綜合運(yùn)用了數(shù)學(xué)、計(jì)算機(jī)學(xué)和生物學(xué)的各種工具來(lái)進(jìn)行研究;
3)目的在于闡明大量生物學(xué)數(shù)據(jù)所包含的生物學(xué)意義。
2. BLAST(Basic Local Alignment Search Tool)
直譯:基本局部排比搜索工具
意譯:基于局部序列排比的常用數(shù)據(jù)庫(kù)搜索工具
含義:蛋白質(zhì)和核酸序列數(shù)據(jù)庫(kù)搜索軟件系統(tǒng)及相關(guān)數(shù)據(jù)庫(kù)
3. PSI-BLAST:是一種迭代的搜索方法,可以提高BLAST和FASTA的相似序列發(fā)現(xiàn)率。
4. 一致序列:這些序列是指把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點(diǎn)是除了在特定位置最常見(jiàn)的殘基之外,它們不能表示任何概率信息。
5. HMM 隱馬爾可夫模型:一種統(tǒng)計(jì)模型,它考慮有關(guān)匹配、錯(cuò)配和間隔的所有可能的組合來(lái)生成一組序列排列。(課件定義)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。
6. 信息位點(diǎn):由位點(diǎn)產(chǎn)生的突變數(shù)目把其中的一課樹(shù)與其他樹(shù)區(qū)分開(kāi)的位點(diǎn)。
7. 非信息位點(diǎn):對(duì)于最大簡(jiǎn)約法來(lái)說(shuō)沒(méi)有意義的點(diǎn)。
8. 標(biāo)度樹(shù):分支長(zhǎng)度與相鄰節(jié)點(diǎn)對(duì)的差異程度成正比的樹(shù)。
9. 非標(biāo)度樹(shù):只表示親緣關(guān)系無(wú)差異程度信息。
10. 有根樹(shù):?jiǎn)我坏墓?jié)點(diǎn)能指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。
11. 無(wú)根樹(shù):只表明節(jié)點(diǎn)間的關(guān)系,無(wú)進(jìn)化發(fā)生方向的信息,通過(guò)引入外群或外部參考物種,可以在無(wú)根樹(shù)中指派根節(jié)點(diǎn)。
12. 注釋:指從原始序列數(shù)據(jù)中獲得有用的生物學(xué)信息。這主要是指在基因組DNA中尋找基因和其他功能元件(結(jié)構(gòu)注釋),并給出這些序列的功能(功能注釋)。
13. 聚類分析:一種通過(guò)將相似的數(shù)據(jù)劃分到特定的組中以簡(jiǎn)化大規(guī)模數(shù)據(jù)集的方法。
14. 無(wú)監(jiān)督分析法:這種方法沒(méi)有內(nèi)建的分類標(biāo)準(zhǔn),組的數(shù)目和類型只決定于所使用的算法和數(shù)據(jù)本身的分析方法。
15. 有監(jiān)督分析法:這種方法引入某些形式的分類系統(tǒng),從而將表達(dá)模式分配到一個(gè)或多個(gè)預(yù)定義的類目中。
16. 微陣列芯片:將探針有規(guī)律地排列固定于載體上,與標(biāo)記熒光分子的樣品進(jìn)行雜交,通過(guò)掃描儀掃描對(duì)熒光信號(hào)的強(qiáng)度進(jìn)行檢測(cè),從而迅速得出所要的信息。
17. 虛擬消化:是基于已知蛋白序列和切斷酶的特異性的情況下進(jìn)行的理論酶切(課件定義)。是在已知蛋白質(zhì)序列和蛋白外切酶之類切斷試劑的已知特異性的基礎(chǔ)上, 由計(jì)算機(jī)進(jìn)行的一種理論上的蛋白裂解反應(yīng)。
18. 質(zhì)譜(MS)是一種準(zhǔn)確測(cè)定真空中離子的分子質(zhì)量/電荷比(m/z)的方法,從而使分子質(zhì)量的準(zhǔn)確確定成為可能。
質(zhì)譜分析的兩個(gè)工具
19. 分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。
20. 虛擬細(xì)胞:一種建模手段,把細(xì)胞定義為許多結(jié)構(gòu),分子,反應(yīng)和物質(zhì)流的集合體。
21. 先導(dǎo)化合物:是指具有一定藥理活性的、可通過(guò)結(jié)構(gòu)改造來(lái)優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。就是利用計(jì)算機(jī)在含有大量化合物三維結(jié)構(gòu)的數(shù)據(jù)庫(kù)中,搜索能與生物大分子靶點(diǎn)匹配的化合物,或者搜索能與結(jié)合藥效團(tuán)相符的化合物,又稱原型物,簡(jiǎn)稱先導(dǎo)物,是通過(guò)各種途徑或方法得到的具有生物活性的化學(xué)結(jié)構(gòu)
22. 權(quán)重矩陣(序列輪廓):它們表示完全結(jié)構(gòu)域序列,多序列聯(lián)配中每個(gè)位點(diǎn)的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(課件定義)。基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的數(shù)據(jù)庫(kù)。
23. 系統(tǒng)發(fā)育學(xué)(phylogenetic):確定生物體間進(jìn)化關(guān)系的科學(xué)分支。
24. 系統(tǒng)生物學(xué)(systems biology):是研究一個(gè)生物系統(tǒng)中所有組分成分(基因、mRNA、蛋白質(zhì)等)的構(gòu)成以及在特定條件下這些組分間的相互關(guān)系,并分析生物系統(tǒng)在一定時(shí)間內(nèi)的動(dòng)力學(xué)過(guò)程
25. 蛋白質(zhì)組(proteome):是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。
26. ESI電噴霧離子化:一種適合大分子如蛋白質(zhì)離子化沒(méi)有明顯降解的質(zhì)譜技術(shù)。
二.填空題
1. 常用的三種序列格式:NBRF/PIR,FASTA和GDE
2. 初級(jí)序列數(shù)據(jù)庫(kù):GenBank,EMBL和DDBJ
3. 蛋白質(zhì)序列數(shù)據(jù)庫(kù):SWISS-PROT和TrEMBL
4. 提供蛋白質(zhì)功能注釋信息的數(shù)據(jù)庫(kù):KEGG(京都基因和基因組百科全書(shū))和PIR(蛋白質(zhì)信息資源)
5. 目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed
6. 數(shù)據(jù)庫(kù)常用的數(shù)據(jù)檢索工具:Entrez,SRS,DBGET
7. 常用的序列搜索方法:FASTA和BLAST
8. 高分值局部聯(lián)配的BLAST參數(shù)是HSPs(高分值片段對(duì)),E(期望值)
9. 多序列聯(lián)配的常用軟件:Clustal
10. 蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫(kù)有:Pfam,SMART
11. 系統(tǒng)發(fā)育學(xué)的研究方法有:表現(xiàn)型分類法,遺傳分類法和進(jìn)化分類法
12. 系統(tǒng)發(fā)育樹(shù)的構(gòu)建方法: 距離矩陣法,最大簡(jiǎn)約法和最大似然法
13. 常用系統(tǒng)發(fā)育分析軟件:PHYLIP
14. 檢測(cè)系統(tǒng)發(fā)育樹(shù)可靠性的技術(shù):bootstrapping和Jack-knifing
15. 原核生物和真核生物基因組中的注釋所涉及的問(wèn)題是不同的
16. 檢測(cè)原核生物ORF的程序:NCBI ORF finder
17. 測(cè)試基因預(yù)測(cè)程序正確預(yù)測(cè)基因的能力的項(xiàng)目是GASP(基因預(yù)測(cè)評(píng)估項(xiàng)目)
18. 二級(jí)結(jié)構(gòu)的三種狀態(tài):α螺旋,β折疊和β轉(zhuǎn)角
19. 用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò),包括輸入層,隱含層和輸出層
20. 通過(guò)比較建模預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER(SWISS—MODEL網(wǎng)站)
21. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具:SEQUEST
22. 分子途徑最廣泛數(shù)據(jù)庫(kù):KEGG
23. 聚類分析方法,分為有監(jiān)督學(xué)習(xí)方法,無(wú)監(jiān)督學(xué)習(xí)方法
24. 質(zhì)譜的兩個(gè)數(shù)據(jù)庫(kù)搜索工具:SEQEST和Lutkefish
三.問(wèn)答題
1. FASTA序列格式
第一行以“>”開(kāi)頭但并沒(méi)有指明是蛋白質(zhì)還是核酸序列。后跟代碼,接著是注釋(在同一行),通常注釋要以“|”符號(hào)相隔,第一行沒(méi)有長(zhǎng)度限制。值得注意的是FASTA文件允許以小寫(xiě)字母表示氨基酸。文件擴(kuò)展名為“.fasta”。
(NBIR/PIR序列格式
第一行以“>”開(kāi)頭,后面緊跟兩字母編碼(P1代表蛋白質(zhì)序列,N1代表核酸),再接一個(gè)分號(hào),分號(hào)后緊跟序列標(biāo)識(shí)號(hào)。后面是說(shuō)明行,該行可長(zhǎng)可短,沒(méi)有長(zhǎng)度限制。接下來(lái)是序列本身,以“*”號(hào)終止。文件的擴(kuò)展名為“.pir”或“.seq”。
GDE序列格式
與FASTA的格式基本相同,但行首為“%”,文件擴(kuò)展名為“.gde”。)
2. BLAST的五個(gè)子程序
程序
查詢序列
數(shù)據(jù)庫(kù)種類
簡(jiǎn)述
方法
Blastp
蛋白質(zhì)
蛋白質(zhì)
可以找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列
待搜索蛋白序列與蛋白數(shù)據(jù)庫(kù)比較
Blastn
核苷酸
核苷酸
適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系
待搜索核酸序列與核酸數(shù)據(jù)庫(kù)比較
Blastx
核苷酸
(已翻譯)
蛋白質(zhì)
適合新DNA序列和EST序列的分析
將待搜索核酸序列按6個(gè)讀框翻譯成蛋白質(zhì)序列,然后與數(shù)據(jù)庫(kù)中的蛋白質(zhì)比較
TBlastn
蛋白質(zhì)
核苷酸
(已翻譯)
適合尋找數(shù)據(jù)庫(kù)中尚未標(biāo)注的編碼區(qū)
將數(shù)據(jù)庫(kù)中核酸序列按6個(gè)讀框翻譯成蛋白序列,然后與待搜索蛋白序列對(duì)比
TBlastx
核苷酸
(已翻譯)
核苷酸
(已翻譯)
適合分析EST序列
無(wú)論是待搜索核酸序列還是數(shù)據(jù)庫(kù)中核酸序列,都按6個(gè)讀框翻譯成蛋白序列
3. 生物類的數(shù)據(jù)庫(kù)類別:
一級(jí)數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋;
二級(jí)數(shù)據(jù)庫(kù):對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。
4. PSI-Blast的原理:
PSI-BLAST是一種將雙序列比對(duì)和多序列比對(duì)結(jié)合在一起的數(shù)據(jù)庫(kù)搜索方法。其主要思想是通過(guò)多次迭代找出最佳結(jié)果。每次迭代都發(fā)現(xiàn)一些中間序列,用于在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列(拓展了序列進(jìn)化關(guān)系的覆蓋面積)。
具體做法是最初對(duì)查詢序列進(jìn)行BLAST搜索,接著把查找得到的每一擊中項(xiàng)作為BLAST搜索第二次迭代的查詢序列,重復(fù)這個(gè)過(guò)程直到找不到有意義的相似序列為止。
(以下為研究生課件部分)
PSI-BLAST的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個(gè)位點(diǎn)特異性的序列譜,并通過(guò)多次迭代不斷改進(jìn)這一序列譜以提高搜索的靈敏度。
利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣,并用于第二次的搜索,第二次搜索結(jié)果用于第三次搜索,依此類推,直到找出最佳搜索結(jié)果。此外,BLAST不僅可用于檢測(cè)序列對(duì)數(shù)據(jù)庫(kù)的搜索,還可用于兩個(gè)序列之間的比對(duì)。
5. 多序列聯(lián)配的意義:
1)分析多個(gè)序列的一致序列;2)用于進(jìn)化分析,是用系統(tǒng)發(fā)育方法構(gòu)建進(jìn)化樹(shù)的初始步驟;3)尋找個(gè)體間單核苷酸多態(tài)性;4)通過(guò)序列比對(duì)發(fā)現(xiàn)直親同源與旁系同源基因;5)尋找同源基因(相似的序列往往具有同源性);6)尋找蛋白家族識(shí)別多個(gè)序列的保守區(qū)域;7)相似的蛋白序列往往具有相似的結(jié)構(gòu)與功能;8)輔助預(yù)測(cè)新序列的二級(jí)或三級(jí)結(jié)構(gòu);9)可以直觀地看到基因的哪些區(qū)域?qū)ν蛔兠舾校?0)PCR引物設(shè)計(jì)。
6. 系統(tǒng)發(fā)育學(xué)的研究方法:
1)表現(xiàn)型分類法:將表型相像的物種歸類在一起,所有特征都要被考慮到;
2)遺傳分類法:具有共有起源的物種歸類在一起,也就是說(shuō),這些字符并沒(méi)有出現(xiàn)在離它們較遠(yuǎn)的祖先序列;
3)進(jìn)化分類法:該方法綜合了表現(xiàn)型分類法和遺傳分類法的原理,進(jìn)化方法被普遍認(rèn)為是最好的系統(tǒng)發(fā)育分析方法,因?yàn)樵摲椒ǔ姓J(rèn)并采用目前的進(jìn)化理論;
7. 系統(tǒng)發(fā)育樹(shù)的構(gòu)建方法:
1)距離矩陣法:首先通過(guò)各個(gè)物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推到得出分類群之間的進(jìn)化距離,構(gòu)建一個(gè)進(jìn)化距離矩陣,其次基于這個(gè)矩陣中的進(jìn)化距離關(guān)系構(gòu)建進(jìn)化樹(shù);
2)最大簡(jiǎn)約法:該法依據(jù)在任何位置將一條序列轉(zhuǎn)變成另一條序列所需要突變的最少數(shù)量對(duì)序列進(jìn)行比較和聚類;
3)最大似然法:該模型可將一個(gè)給定替代發(fā)生在序列中任何位置的概率融合進(jìn)算法,該方法計(jì)算序列中每個(gè)位置的一個(gè)給定序列變化的可能性,最可靠的樹(shù)為總的可能性最大的那棵。
8. 簡(jiǎn)述人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)的基本步驟。
1)輸入數(shù)據(jù)(來(lái)自PDB)
2)產(chǎn)生一個(gè)神經(jīng)網(wǎng)絡(luò)(一個(gè)計(jì)算程序)
3)用已知的蛋白質(zhì)二級(jí)結(jié)構(gòu)來(lái)訓(xùn)練這個(gè)模型
4)由訓(xùn)練好的模型來(lái)給出未知蛋白的一個(gè)可能的結(jié)構(gòu)
5)最后從生物角度來(lái)檢驗(yàn)預(yù)測(cè)的一系列氨基酸是否合理
9. 預(yù)測(cè)蛋白質(zhì)三級(jí)結(jié)構(gòu)的三種方法
1)同源建模法:依據(jù)蛋白質(zhì)與已知結(jié)構(gòu)蛋白比對(duì)信息構(gòu)建3D模型;
2)折疊識(shí)別法:尋找與未知蛋白最合適的模板,進(jìn)行序列與結(jié)構(gòu)比對(duì),最終建立結(jié)構(gòu)模型;
3)從頭預(yù)測(cè)法:根據(jù)序列本身從頭預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
10. 分子途徑和網(wǎng)絡(luò)的特點(diǎn):
1)分子途徑和網(wǎng)絡(luò)的結(jié)構(gòu)隨意性大。圖可以很簡(jiǎn)單,也可以非常復(fù)雜。它們可能包含了多個(gè)分支,盤(pán)繞的連接和回路。
2)它們通常也顯示出節(jié)點(diǎn)間關(guān)系的方向,例如表示出代謝通路或信號(hào)傳導(dǎo)的方向。調(diào)控途徑和網(wǎng)絡(luò)的圖也應(yīng)該說(shuō)明相互作用是正的還是負(fù)的。正的相互作用(促進(jìn)或者活化作用)常常用箭頭表示,而負(fù)的交互效應(yīng)(抑制或者失活作用)常常用T型棒表示。
11. 先導(dǎo)化合物的來(lái)源有四種來(lái)源:
1)通過(guò)偶然性觀察發(fā)現(xiàn)的先導(dǎo)化合物(這個(gè)方法最著名的例子就是亞歷山大.弗萊明發(fā)現(xiàn)的青霉素,今天所用的許多抗生素皆由其發(fā)展出來(lái))
2)也可以通過(guò)替代療法的藥物開(kāi)發(fā)中發(fā)現(xiàn)的藥物副作用來(lái)識(shí)別先導(dǎo)化合物(例如,鎮(zhèn)定劑氯化物丙嫀是在試驗(yàn)中發(fā)現(xiàn)用在抗組胺劑時(shí)被發(fā)現(xiàn)的)
3)先導(dǎo)化合物也可以來(lái)自傳統(tǒng)醫(yī)藥學(xué)(如奎寧化合物就來(lái)自金雞納的樹(shù)皮)
4)先導(dǎo)化合物也可以來(lái)自天然的底物或是配體(比如說(shuō),腎上腺素作為舒喘寧的類似物用來(lái)治療哮喘)
12. 簡(jiǎn)述DNA計(jì)算機(jī)的基本原理:
1)以編碼生命信息的遺傳物質(zhì)—DNA序列,作為信息編碼的載體,利用DNA分子的雙螺旋結(jié)構(gòu)和堿基互補(bǔ)配對(duì)的性質(zhì),將所要處理的問(wèn)題映射為特定的DNA分子;
2)在生物酶的作用下,通過(guò)可控的生化反應(yīng)生成問(wèn)題的解空間;最后利用各種現(xiàn)代分子生物技術(shù)如聚合酶鏈反應(yīng)RCR、超聲波降解、親和層析、分子純化、電泳、磁珠分離等手段破獲運(yùn)算結(jié)果。
DNA計(jì)算機(jī)優(yōu)點(diǎn):低能耗、存儲(chǔ)容量高、運(yùn)算速度快,可真正實(shí)現(xiàn)并行工作。
13. 簡(jiǎn)述DNA計(jì)算實(shí)現(xiàn)方式中,表面方式與試管方式相比具有哪些優(yōu)點(diǎn)?
試管方式:就是在一個(gè)或多個(gè)試管的溶液里進(jìn)行生化反應(yīng);
表面方式:是將對(duì)應(yīng)的解空間的DNA分子固定在一塊固體上,其次進(jìn)行各種生化反應(yīng),或是在表面逐步形成解空間,然后根據(jù)具體問(wèn)題對(duì)所有可能的解進(jìn)行篩選,最后得到運(yùn)算結(jié)果。
(1)操作簡(jiǎn)單,易于實(shí)現(xiàn)自動(dòng)化操作;
(2)減少人為操作過(guò)程中造成的DNA分子的丟失及其它操作失誤;
(3)減少分子在表面上的相互作用,同時(shí)增強(qiáng)分子間的特異性結(jié)合;
(4)信息儲(chǔ)存密度大,據(jù)估計(jì),10毫克DNA表面上的儲(chǔ)存密度是傳統(tǒng)計(jì)算姬的10的8次方倍,而在溶液中僅為10的5次方倍;
(5)結(jié)果易于純化。
14. 簡(jiǎn)述PCR引物設(shè)計(jì)的基本原則及其注意要點(diǎn)
原則:首先引物與模板的序列要緊密互補(bǔ),其次引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu),再次引物不能再模板的非等位點(diǎn)引發(fā)DNA聚合反應(yīng)(即錯(cuò)配)。
注意要點(diǎn):1、引物的長(zhǎng)度一般為15-30bp,常用的是18-27bp,但不應(yīng)大于38,因?yàn)檫^(guò)長(zhǎng)會(huì)導(dǎo)致其延伸溫度大于74℃,不適合于TaqDNA聚合酶進(jìn)行反應(yīng)。
2、引物序列在模板內(nèi)應(yīng)當(dāng)沒(méi)有相似性較高,尤其是3’端相似性較高的序列,否則容易導(dǎo)致錯(cuò)配。引物3’端出現(xiàn)3個(gè)以上的連續(xù)堿基,如GGG或CCC,也會(huì)使錯(cuò)誤引發(fā)幾率增加。
3、引物3’端的末位堿基對(duì)Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯(cuò)配位置導(dǎo)致不同的擴(kuò)增效率,末位堿基為A的錯(cuò)配效率明顯高于其他3個(gè)堿基,因此應(yīng)當(dāng)避免在引物的3’端使用堿基。另外,引物二聚體或發(fā)夾結(jié)構(gòu)也可能導(dǎo)致PCR反應(yīng)失敗。5’端序列對(duì)PCR影響不太大,因此常用來(lái)引進(jìn)修飾位點(diǎn)或標(biāo)記物。
4、引物序列的GC含量一般為40-60%,過(guò)高或過(guò)低都不利于引發(fā)反應(yīng)。上下游引物的GC含量不能相差太大。
5、引物所對(duì)應(yīng)模板位置序列的Tm值在72℃左右可使復(fù)性條件最佳。Tm值的計(jì)算有很多種方法,如按公式Tm=4(G+C)+2(A+T),在Oligo軟件中使用的是最鄰近法(thenearestneighbormethod)。
6、G值是指DNA雙鏈形成所需的自由能,該值反映了雙鏈結(jié)構(gòu)內(nèi)部堿基對(duì)的相對(duì)穩(wěn)定性。應(yīng)當(dāng)選用3’端G值較低(絕對(duì)值不超過(guò)9),而在5’端和中間G值相對(duì)較高的引物。引物的3’端的G值過(guò)高,容易在錯(cuò)配位點(diǎn)形成雙鏈結(jié)構(gòu)并引發(fā)DNA聚合反應(yīng)。
7、引物二聚體及發(fā)夾結(jié)構(gòu)的能值過(guò)高(超過(guò)4.5kcal/mol)易導(dǎo)致產(chǎn)生引物二聚體帶,并且降低引物有效濃度而使PCR反應(yīng)不能正常進(jìn)行。
8、對(duì)引物的修飾一般是在5’端增加酶切位點(diǎn),應(yīng)根據(jù)下一步實(shí)驗(yàn)中要插入PCR產(chǎn)物的載體的相應(yīng)序列而確定。
15. 假設(shè)你得到一段未知基因的DNA序列,從你學(xué)習(xí)到的生物信息學(xué)分析方法和軟件,設(shè)計(jì)一個(gè)分析流程來(lái)分析該未知基因的功能和家族類別(包括系統(tǒng)發(fā)育樹(shù)構(gòu)建)
1、得到未知基因的DNA序列,用Blast做序列比對(duì),找出與其基因相似的核苷酸序列和蛋白質(zhì)序列。
2、接著,用搜索出來(lái)的較相似的序列用ClustW進(jìn)行多序列比對(duì),得到該序列的保守情況和突變情況。
3、最后用距離法構(gòu)建系統(tǒng)發(fā)育樹(shù)。
16. 假設(shè)你得到一段未知蛋白的氨基酸序列,從你學(xué)習(xí)到的生物信息學(xué)分析方法和軟件,設(shè)計(jì)一個(gè)分析流程來(lái)分析該未知蛋白的功能和家族類別以及其結(jié)構(gòu)預(yù)測(cè)。
1、用該序列進(jìn)行BLASTP搜索。
2、再對(duì)其進(jìn)行蛋白質(zhì)結(jié)構(gòu)域、功能域的搜索,可以用Znterproscan、Pfam,并對(duì)其進(jìn)行結(jié)構(gòu)分析。
3、再用ClustW進(jìn)行多序列比對(duì)。
4、用人工神經(jīng)網(wǎng)絡(luò)的方法對(duì)其結(jié)構(gòu)進(jìn)行結(jié)構(gòu)預(yù)測(cè)。
17. BLAST中,E值和P值分別是什么,它們有什么意義?
答:BLAST中使用的統(tǒng)計(jì)值有概率p值和期望e值。
E期望值(E-value)這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一比對(duì)結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對(duì)結(jié)果越顯著。默認(rèn)值為10,表示比對(duì)結(jié)果中將有10個(gè)匹配序列是由隨機(jī)產(chǎn)生,如果比對(duì)的統(tǒng)計(jì)顯著性值(E值)小于該值(10),則該比對(duì)結(jié)果將被檢出,換句話說(shuō),比較低的E值將使搜索的匹配要求更嚴(yán)格,結(jié)果報(bào)告中隨機(jī)產(chǎn)生的匹配序列減少。
p值表示比對(duì)結(jié)果得到的分?jǐn)?shù)值的可信度。一般說(shuō)來(lái),p值越接近于零,則比對(duì)結(jié)果的可信度越大;相反,p值越大,則比對(duì)結(jié)果來(lái)自隨機(jī)匹配的可能性越大。
18. 什么是序列比對(duì)中使用的PAM矩陣和BLOSUM矩陣,它們的作用是什么,一般BLAST選擇使用的矩陣是什么
答:PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoring matrix)。記分矩陣中含有對(duì)齊時(shí)具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇,若要進(jìn)行突變性質(zhì)的進(jìn)化分析時(shí)可以使用PAM,F(xiàn)ASTA缺省推薦BLOSUM50矩陣。
PAM矩陣(Point Accepted Mutation)基于進(jìn)化的點(diǎn)突變模型,如果兩種氨基酸替換頻繁,說(shuō)明自然界接受這種替換,那么這對(duì)氨基酸替換得分就高。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位, 即1%的氨基酸改變,但這并不意味100次PAM后,每個(gè)氨基酸都發(fā)生變化,因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過(guò)多次突變,甚至可能會(huì)變回到原來(lái)的氨基酸。
模塊替換矩陣BLOSUM(BLOcks Substitution Matrix)首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個(gè)結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列),分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對(duì)另一種氨基酸的取代數(shù)據(jù)),然后,以所有 60%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM60;以所有80%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM80。
19. 為什么蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)很重要,目前有哪幾條途徑用于從蛋白質(zhì)的氨基酸序列預(yù)測(cè)其空間三維結(jié)構(gòu)?
答:蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)很重要。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,通過(guò)分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。
目前有三條途徑用于從蛋白質(zhì)一級(jí)序列預(yù)測(cè)其空間三維結(jié)構(gòu):
A、同源建模法。是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的主要方法。對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì),首先通過(guò)序列同源分析找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì),然后,以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。前提是必須要有一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)。
B、穿針引線法。需建立核心折疊數(shù)據(jù)庫(kù),在預(yù)測(cè)蛋白質(zhì)空間結(jié)構(gòu)時(shí)將一個(gè)待預(yù)測(cè)結(jié)構(gòu)的蛋白質(zhì)序列與數(shù)據(jù)庫(kù)中核心折疊進(jìn)行比對(duì),找出比對(duì)結(jié)果最好的核心折疊,作為構(gòu)造待預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)模型的根據(jù)。
C、從頭開(kāi)始法。在既沒(méi)有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒(méi)有已知結(jié)構(gòu)的遠(yuǎn)程同源蛋白質(zhì)的情況下,直接根據(jù)序列本身來(lái)預(yù)測(cè)其結(jié)構(gòu)。該方法先對(duì)蛋白質(zhì)及溶劑作近似處理,再建立能量函數(shù),通過(guò)對(duì)構(gòu)象空間進(jìn)行快速搜索找到與某一全局最小能量相對(duì)應(yīng)的構(gòu)象。
生物信息學(xué)的應(yīng)用:
1(商業(yè))生物信息學(xué)市場(chǎng)規(guī)模:
生物醫(yī)藥信息市場(chǎng)
藥物基因組學(xué)數(shù)據(jù)收集和分析
生物芯片數(shù)據(jù)收集和分析
2基因組分析(基礎(chǔ)科學(xué)研究的需要)
基因組測(cè)序,拼接
基因的分離
基因組的結(jié)構(gòu)
基因的序列到功能
比較基因組學(xué)研究
蛋白質(zhì)的結(jié)構(gòu)與功能
分子進(jìn)化研究
3更多的應(yīng)用(與人類生活密切相關(guān))
新藥物設(shè)計(jì)
基因芯片疾病快速診斷
流行病學(xué)研究
人類基因組計(jì)劃
寄生蟲(chóng)基因組計(jì)劃:基因芯片
一、 名詞解釋
1. GenBank:是美國(guó)全國(guó)衛(wèi)生研究所維護(hù)的基因序列數(shù)據(jù)庫(kù),匯集并注釋了所有公開(kāi)的核酸序列,與日本的DNA數(shù)據(jù)庫(kù)DDBJ以及歐洲分子實(shí)驗(yàn)室核酸序列數(shù)據(jù)庫(kù)EMBL一起,都是國(guó)際核苷酸序列數(shù)據(jù)庫(kù)合作的成員。
2. EMBL:EMBL實(shí)驗(yàn)室—?dú)W洲分子生物學(xué)實(shí)驗(yàn)室,EMBL數(shù)據(jù)庫(kù)—是非盈利性學(xué)術(shù)組織EMBL建立的綜合性數(shù)據(jù)庫(kù),EMBL核酸數(shù)據(jù)庫(kù)是歐洲最重要的核酸序列數(shù)據(jù)庫(kù),它定期地與美國(guó)的GenBank、日本的DDBJ數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行交換,并同步更新。
3. DDBJ:日本DNA數(shù)據(jù)庫(kù),主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號(hào),信息來(lái)源主要是日本的研究機(jī)構(gòu),也接受其他國(guó)家呈遞的序列。
4. BLAST:基本局部比對(duì)搜索工具的縮寫(xiě),是一種序列類似性檢索工具。BLAST采用統(tǒng)計(jì)學(xué)幾分系統(tǒng),同時(shí)采用局部比對(duì)算法, BLAST程序能迅速與公開(kāi)數(shù)據(jù)庫(kù)進(jìn)行相似性序列比較。BLAST結(jié)果中的得分是對(duì)一種對(duì)相似性的統(tǒng)計(jì)說(shuō)明。
5. BLASTn:是核酸序列到核酸庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一地核酸序列比對(duì)。
6. BLASTp:是蛋白序列到蛋白庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。
7. Clustsl X:是CLUSTAL多重序列比對(duì)程序的Windows版本,是用來(lái)對(duì)核酸與蛋白序列進(jìn)行多序列比較的程序,也可以對(duì)來(lái)自不同物種的功能或結(jié)構(gòu)相似的序列進(jìn)行比對(duì)和聚類,通過(guò)重建系統(tǒng)發(fā)生樹(shù)判斷親緣關(guān)系,并對(duì)序列在生物進(jìn)化過(guò)程中的保守性進(jìn)行估計(jì)。
8. Entrez:是由NCBI主持的一個(gè)數(shù)據(jù)庫(kù)檢索系統(tǒng),它包括核酸,蛋白以及Medline文摘數(shù)據(jù)庫(kù),在這三個(gè)數(shù)據(jù)庫(kù)中建立了非常完善的聯(lián)系。因此,可以從一個(gè)DNA序列查詢到蛋白產(chǎn)物以及相關(guān)文獻(xiàn),而且,每個(gè)條目均有一個(gè)類鄰(neighboring)信息,給出與查詢條目接近的信息。
9. SRS(sequence retrieval system):序列查詢系統(tǒng),是EBI提供的多數(shù)據(jù)庫(kù)查詢工具之一。有與Entrez類似的功能外,還提供了一系列的序列分析工具,可以直接進(jìn)行在線序列分析處理。
10. SWLSS—MODE:是目前最著名的蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)服務(wù)器,建立在已知生物大分子結(jié)構(gòu)基礎(chǔ)上,利用同源建模的方法對(duì)未知序列的蛋白質(zhì)三級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。
11. homology modeling:是目前最為成功且實(shí)用的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,它的前提是已知一個(gè)或多個(gè)同源蛋白質(zhì)的結(jié)構(gòu)。當(dāng)兩個(gè)蛋白質(zhì)的序列同源性高于35%,一般情況下認(rèn)為他們的三維結(jié)構(gòu)基本相同。
12. Ab initio prediction:蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)方法—從頭預(yù)測(cè)法,在既沒(méi)有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒(méi)有已知結(jié)構(gòu)的遠(yuǎn)程同源蛋白質(zhì)的情況下,只能采用從頭預(yù)測(cè)方法,即(直接)僅僅根據(jù)序列本身來(lái)預(yù)測(cè)其結(jié)構(gòu)。
13. molecular phylogenetic tree:分子進(jìn)化樹(shù),精確地反映物種間或群體間在進(jìn)化過(guò)程中發(fā)生的極微細(xì)的遺傳變異,而且借助化石提供的大分子類群的分化年代能定量地估計(jì)出物種間或群體間的分化年代。
14. gene tree:基因樹(shù),表示一組基因或一組DNA順序進(jìn)化關(guān)系的系統(tǒng)發(fā)生樹(shù)。
15. neighbor—joining method:鄰接法,基于最小進(jìn)化原理經(jīng)常被使用的一種算法,它不檢驗(yàn)所有可能的拓?fù)浣Y(jié)構(gòu),能同時(shí)給出拓?fù)浣Y(jié)構(gòu)和分支長(zhǎng)度。在重建系統(tǒng)發(fā)生樹(shù)時(shí),認(rèn)為在進(jìn)化分子上,發(fā)生趨異的次數(shù)可以不同,它是最有效的的基于距離數(shù)據(jù)重建系統(tǒng)樹(shù)的方法之一。
16. maximum parsimony method:最大簡(jiǎn)約法基于進(jìn)化過(guò)程中所需核苷酸(或氨基酸)替代數(shù)目最少的假說(shuō),對(duì)所有可能正確的拓?fù)浣Y(jié)構(gòu)進(jìn)行計(jì)算并挑選出所需替代數(shù)最小的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)系統(tǒng)樹(shù)。
17. MEGA(Molecular Evolutionary Genetics Analysis):是一款免費(fèi)的構(gòu)樹(shù)軟件,它提供了序列比對(duì)、格式轉(zhuǎn)換、數(shù)據(jù)修訂、距離計(jì)算、系統(tǒng)樹(shù)重建和可信度評(píng)估等全套功能,能對(duì)DNA、mRNA氨基酸序列及遺傳距離進(jìn)行系統(tǒng)發(fā)生分析以及基因分化年代的分析。
18. BioEdit:BioEdit是一個(gè)序列編輯器與分析工具軟件。功能包括:序列編輯、外掛分析程序、RNA分析、尋找特征序列、支持超過(guò)20000個(gè)序列的多序列文件、基本序列處理功能、質(zhì)粒圖繪制等等。
19. EST:表達(dá)序列標(biāo)簽—是從一個(gè)隨機(jī)選擇的cDNA 克隆,進(jìn)行5’端和3’端單一次測(cè)序挑選出來(lái)獲得的短的cDNA 部分序列,代表一個(gè)完整基因的一小部分
20. GSS:基因組勘測(cè)序列,是基因組DNA克隆的一次性部分測(cè)序得到的序列。包括隨機(jī)的基因組勘測(cè)序列、cosmid/BAC/YAC末端序列、通過(guò)Exon trapped獲得基因組序列、通過(guò)Alu PCR獲得的序列、以及轉(zhuǎn)座子標(biāo)記(序列等。
21. ORF:核酸序列的開(kāi)放閱讀框,一個(gè)ORF就是一個(gè)潛在的蛋白質(zhì)編碼區(qū)。
22. promoter:啟動(dòng)子,是RNA聚合酶識(shí)別、結(jié)合并開(kāi)始轉(zhuǎn)錄所必需的一段DNA序列。
23. 3’UTR:3’非翻譯區(qū)的縮寫(xiě),真核生物的轉(zhuǎn)錄終止信號(hào)是在3’非翻譯區(qū)的polyA。
24. CpG island:是DNA上的一個(gè)區(qū)域,富含GC,兩者以磷酸酯鍵相連,長(zhǎng)度約幾百到幾千bp不等,常出現(xiàn)在管家基因或頻繁表達(dá)的基因的啟動(dòng)子附近,在這些部位,CpG島具有阻止序列甲基化的作用。
25. coiled coil:卷曲螺旋,是蛋白質(zhì)中由2~7條α螺旋鏈相互纏繞形成類似麻花狀結(jié)構(gòu)的總稱。卷曲螺旋是控制蛋白質(zhì)寡聚化的元件,在機(jī)體內(nèi)執(zhí)行著分子識(shí)別、代謝調(diào)控、細(xì)胞分化、肌肉收縮、膜通道等生物學(xué)功能。
26. heptad repeat:七肽重復(fù)區(qū)是典型的卷曲螺旋結(jié)構(gòu)類型之一,由多個(gè)七肽單元連接而成的重復(fù)序列。
27. structure domain:結(jié)構(gòu)域,是在蛋白質(zhì)三級(jí)結(jié)構(gòu)中介于二級(jí)和三級(jí)結(jié)構(gòu)之間的可以明顯區(qū)分但又相對(duì)獨(dú)立的折疊單元,每個(gè)結(jié)構(gòu)域自身形成緊實(shí)的三維結(jié)構(gòu),可以獨(dú)立存在或折疊,但結(jié)構(gòu)域與結(jié)構(gòu)域之間關(guān)系較為松散。
28. motif:又稱模體,實(shí)序列中局部的保守區(qū)域,或者是一組序列中共有的一小段序列模式。通常由2、3個(gè)二級(jí)結(jié)構(gòu)單位組成,一般為α螺旋、β折疊和環(huán)。motif作為結(jié)構(gòu)域中的亞單位,表現(xiàn)結(jié)構(gòu)域的各種生物學(xué)功能。
29. linux operating system:linux操作系統(tǒng),Linux是一類Unix計(jì)算機(jī)操作系統(tǒng)的統(tǒng)稱。Linux操作系統(tǒng)也是自由軟件和開(kāi)放源代碼發(fā)展中最著名的例子。
30. BioPerl:是Perl語(yǔ)言專門(mén)用于生物信息學(xué)、基因組學(xué)及其他生命科學(xué)領(lǐng)域的工具與函數(shù)模塊集。
31. PubMed:是一個(gè)免費(fèi)的生物醫(yī)學(xué)文摘數(shù)據(jù)庫(kù),提供部分論文的摘要及指向全文的鏈接。作為 Entrez 資訊檢索系統(tǒng)的一部分。
32. PDB(Protein Data Bank):PDB是目前最主要的收集生物大分子(蛋白質(zhì)、核酸和糖)三維結(jié)構(gòu)的數(shù)據(jù)庫(kù),允許用戶用各種方式以及布爾邏輯組合(AND、OR和NOT)進(jìn)行檢索。
33. HGP(human genome project);人類基因組計(jì)劃,1990年由美國(guó)能源部(DOE)和國(guó)立健康研究院(NIH)資助的一個(gè)研究計(jì)劃。目的是:① 鑒定出人類的所有基因;② 確定構(gòu)成人類基因組的約30億個(gè)堿基對(duì)的序列;③ 將上述信息儲(chǔ)存于專門(mén)的數(shù)據(jù)庫(kù)中,并開(kāi)發(fā)出相應(yīng)的分析工具;④ 研究由此而產(chǎn)生的倫理、法律和社會(huì)問(wèn)題并提出相應(yīng)對(duì)策。
34. ncRNA:非編碼RNA,是指沒(méi)有編碼蛋白質(zhì)功能的所有RNA,它缺乏開(kāi)放閱讀框,常由編碼蛋白質(zhì)的基因反轉(zhuǎn)錄而來(lái)。
35. miRNA:是一類小的非編碼單鏈RNA,由19~25個(gè)核苷酸構(gòu)成,廣泛存在于動(dòng)植物中,調(diào)節(jié)著基因表達(dá)。
二、 簡(jiǎn)答題
1、 Why do biological scientists search DNA databases ?
DNA數(shù)據(jù)庫(kù)集合所有已知核酸的核苷酸序列,單核苷酸多態(tài)性、結(jié)構(gòu)、性質(zhì)以及相關(guān)描述,包括它們的科學(xué)命名、來(lái)源物種分類名稱、參考文獻(xiàn)等信息的資料庫(kù)。通過(guò)搜索DNA數(shù)據(jù)庫(kù),可以檢索出人們已經(jīng)得到的DNA信息,在這些信息中科學(xué)家可以找出與待查或正在研究的DNA的相關(guān)或相似DNA的信息。
2、 NCBI維護(hù)的核苷酸數(shù)據(jù)庫(kù)由哪幾部分組成的,其主要的內(nèi)容是什么?
由三部分組成:表達(dá)序列標(biāo)簽序列、基因組測(cè)序序列、核心核苷酸序列。
3、 UniGene 數(shù)據(jù)庫(kù)主要收集什么樣的數(shù)據(jù)?
UniGene數(shù)據(jù)庫(kù)稱得上是一個(gè)實(shí)驗(yàn)性質(zhì)的系統(tǒng),它通過(guò)程序自動(dòng)將GenBank中的基因序列劃分到某個(gè)非冗余的基于基因的集合中。這樣,每個(gè)UniGene集合就代表了一個(gè)獨(dú)特的基因,并包含了與這個(gè)基因相關(guān)的信息。
4、 GEO數(shù)據(jù)庫(kù)主要收集的是什么樣的數(shù)據(jù)?
基因表達(dá)精選集(GEO)數(shù)據(jù)庫(kù)存儲(chǔ)的是一些準(zhǔn)確的基因表達(dá)圖譜數(shù)據(jù)和大規(guī)模的分子實(shí)驗(yàn)數(shù)據(jù)。
5、真核基因結(jié)構(gòu)識(shí)別主要包含哪些內(nèi)容?
(1)ORF識(shí)別及其可靠性驗(yàn)證:確定DNA序列的編碼區(qū)
(2)啟動(dòng)子及轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析:CAP序列、識(shí)別區(qū)、解旋區(qū)、轉(zhuǎn)錄起始位點(diǎn)
(3)重復(fù)序列分析:哺乳動(dòng)物基因組中存在大量重復(fù)序列,由于重復(fù)序列的大量存在常會(huì)影響序列的正確分析,因此在對(duì)真核基因進(jìn)行分析前,最好能把重復(fù)序列找出來(lái),并從序列中屏蔽掉
(4)CpG island:可以為基因及其啟動(dòng)子的預(yù)測(cè)提供重要的線索
(5)3’UTR區(qū):真核生物的轉(zhuǎn)錄終止信號(hào)是在3’UTR區(qū)
6、分子進(jìn)化樹(shù)的構(gòu)建主要有哪些算法?
鄰接法、最大簡(jiǎn)約法、最大似然法、貝葉斯法