最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

生物信息學(xué)-復(fù)習(xí)題及答案(打印)

2023-08-31 18:10 作者:答案鬼  | 我要投稿

一、名詞解釋:


1.生物信息學(xué): 研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科,其特征是多學(xué)科交叉,以互聯(lián)網(wǎng)為媒介,數(shù)據(jù)庫為載體。利用數(shù)學(xué)知識建立各種數(shù)學(xué)模型; 利用計算機為工具對實驗所得大量生物學(xué)數(shù)據(jù)進(jìn)行儲存、檢索、處理及分析,并以生物學(xué)知識對結(jié)果進(jìn)行解釋。

2.二級數(shù)據(jù)庫:在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定目標(biāo)衍生而來,是對生物學(xué)知識和信息的進(jìn)一步的整理。

3.FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號(>)表示一個新文件的開始,其他無特殊要求。

4.genbank序列格式:是GenBank 數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個部分:第一部分包含整個記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個記錄的科學(xué)依據(jù);第四部分是核苷酸序列本身,以“//”結(jié)尾。

5.Entrez檢索系統(tǒng):是NCBI開發(fā)的核心檢索系統(tǒng),集成了NCBI的各種數(shù)據(jù)庫,具有鏈接的數(shù)據(jù)庫多,使用方便,能夠進(jìn)行交叉索引等特點。

6.BLAST:基本局部比對搜索工具,用于相似性搜索的工具,對需要進(jìn)行檢索的序列與數(shù)據(jù)庫中的每個序列做相似性比較。P94

7.查詢序列(query sequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。P98

8.打分矩陣(scoring matrix):在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實際進(jìn)化距離(如PAM)兩類方法。P29

9.空位(gap):在序列比對時,由于序列長度不同,需要插入一個或幾個位點以取得最佳比對結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點稱為空位。P29

10.空位罰分:空位罰分是為了補償插入和缺失對序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對其進(jìn)行罰分,空位罰分的多少直接影響對比的結(jié)果。P37

11.E值:衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機或無關(guān)序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味著序列的相似性偶然發(fā)生的機會越小,也即相似性越能反映真實的生物學(xué)意義。P95

12.低復(fù)雜度區(qū)域:BLAST搜索的過濾選項。指序列中包含的重復(fù)度高的區(qū)域,如poly(A)。

13.點矩陣(dot matrix):構(gòu)建一個二維矩陣,其X軸是一條序列,Y軸是另一個序列,然后在2個序列相同堿基的對應(yīng)位置(x,y)加點,如果兩條序列完全相同則會形成一條主對角線,如果兩條序列相似則會出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。

14.多序列比對:通過序列的相似性檢索得到許多相似性序列,將這些序列做一個總體的比對,以觀察它們在結(jié)構(gòu)上的異同,來回答大量的生物學(xué)問題。

15.分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進(jìn)化推斷出物種起源的時間。

16.系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀,可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。

17.進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個分支節(jié)點,一個父分支都只能被分成兩個子分支。

系統(tǒng)發(fā)育圖:用枝長表示進(jìn)化時間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖,是引入時間概念的支序圖。

18.直系同源:指由于物種形成事件來自一個共同祖先的不同物種中的同源序列,具有相似或不同的功能。(書:在缺乏任何基因復(fù)制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。)

19.旁系(并系)同源:指同一個物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。)

20.外類群:是進(jìn)化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。

21.有根樹:能夠確定所有分析物種的共同祖先的進(jìn)化樹。

22.除權(quán)配對算法(UPGMA):最初,每個序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個節(jié)點,重復(fù)這個過程,直到所有的聚類被加入,最終產(chǎn)生樹根。

23.鄰接法(neighbor-joining method):是一種不僅僅計算兩兩比對距離,還對整個樹的長度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。

24.最大簡約法(MP):在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。



25.最大似然法(ML):它對每個可能的進(jìn)化位點分配一個概率,然后綜合所有位點,找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對變異進(jìn)行分析評估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。

26.一致樹(consensus tree):在同一算法中產(chǎn)生多個最優(yōu)樹,合并這些最優(yōu)樹得到的樹即一致樹。

27.自舉法檢驗(Bootstrap):放回式抽樣統(tǒng)計法。通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個進(jìn)化樹,用來檢查給定樹的分枝可信度。

28.開放閱讀框(ORF):開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基序列。

29.密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。

30.基因預(yù)測的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點,內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測基因組序列中包含的基因。

31.結(jié)構(gòu)域(domain):保守的結(jié)構(gòu)單元,包含獨特的二級結(jié)構(gòu)組合和疏水內(nèi)核,可能單獨存在,也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。

32.超家族:進(jìn)化上相關(guān),功能可能不同的一類蛋白質(zhì)。

33.模體(motif):短的保守的多肽段,含有相同模體的蛋白質(zhì)不一定是同源的,一般10-20個殘基。

34.序列表譜(profile):是一種特殊位點或模體序列,在多序列比較的基礎(chǔ)上,氨基酸的權(quán)值和空位罰分的表格。

35.PAM矩陣:PAM指可接受突變百分率。一個氨基酸在進(jìn)化中變成另一種氨基酸的可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對。一個PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時間。

36.BLOSUM矩陣:模塊替代矩陣。矩陣中的每個位點的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個矩陣適合特定的進(jìn)化距離。例如,在BLOSUM62矩陣中,比對的分值來自不超過62%一致率的一組序列。

37.PSI-BLAST:位點特異性迭代比對。是一種專門化的的比對,通過調(diào)節(jié)序列打分矩陣(scoring matrix)探測遠(yuǎn)緣相關(guān)的蛋白。

38.RefSeq:給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼,對應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。


39.PDB(Protein Data Bank):PDB中收錄了大量通過實驗(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu),記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號由一個數(shù)字和三個字母組成(如,4HHB),同時支持關(guān)鍵詞搜索,還可以FASTA程序進(jìn)行搜索。

40.GenPept:是由GenBank中的DNA序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大,且隨核酸序列數(shù)據(jù)庫的更新而更新,但它們均是由核酸序列翻譯得到的序列,未經(jīng)試驗證實,也沒有詳細(xì)的注釋。

41.折疊子(Fold):在兩個或更多的蛋白質(zhì)中具有相似二級結(jié)構(gòu)的大區(qū)域,這些大區(qū)域具有特定的空間取向。

42.TrEMBL:是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。

43.MMDB(Molecular Modeling Database):是(NCBI)所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個部分,數(shù)據(jù)庫的內(nèi)容包括來自于實驗的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比,對于數(shù)據(jù)庫中的每一個生物大分子結(jié)構(gòu),MMDB具有許多附加的信息,如分子的生物學(xué)功能、產(chǎn)生功能的機制、分子的進(jìn)化歷史等 ,還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。

44.SCOP數(shù)據(jù)庫:提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外,對于每一個蛋白質(zhì)還包括下述信息:到PDB的連接,序列,參考文獻(xiàn),結(jié)構(gòu)的圖像等??梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類,分類結(jié)果是一個具有層次結(jié)構(gòu)的樹,其主要的層次依次是類(class)、折疊子(fold)、超家族(super family)、家族(family)、單個PDB蛋白結(jié)構(gòu)記錄。

45.PROSITE:是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學(xué)意義的位點、模式、可幫助識別蛋白質(zhì)家族的統(tǒng)計特征。 PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;PROSITE還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計特征,能更敏感地發(fā)現(xiàn)一個序列是否具有相應(yīng)的特征。

46.Gene Ontology 協(xié)會:編輯一組動態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會。

從3個方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過程,細(xì)胞區(qū)室。

47.表譜(PSSM):指一張基于多序列比對的打分表,表示一個蛋白質(zhì)家族,可以用來搜索序列數(shù)據(jù)庫。


48.比較基因組學(xué):是在基因組圖譜和測序的基礎(chǔ)上,利用某個基因組研究獲得的信息推測其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機制和物種進(jìn)化的學(xué)科。

49.簡約信息位點:指基于DNA或蛋白質(zhì)序列,利用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時,如果每個位點的狀態(tài)至少存在兩種,每種狀態(tài)至少出現(xiàn)兩次的位點。其它位點為都是非簡約性信息位點。

4. 一致序列:這些序列是指把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點是除了在特定位置最常見的殘基之外,它們不能表示任何概率信息。

5. HMM 隱馬爾可夫模型:一種統(tǒng)計模型,它考慮有關(guān)匹配、錯配和間隔的所有可能的組合來生成一組序列排列。(課件定義)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。

6. 信息位點:由位點產(chǎn)生的突變數(shù)目把其中的一課樹與其他樹區(qū)分開的位點。

7. 非信息位點:對于最大簡約法來說沒有意義的點。

8. 標(biāo)度樹:分支長度與相鄰節(jié)點對的差異程度成正比的樹。

9. 非標(biāo)度樹:只表示親緣關(guān)系無差異程度信息。

10. 有根樹:單一的節(jié)點能指派為共同的祖先,從祖先節(jié)點只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點。

11. 無根樹:只表明節(jié)點間的關(guān)系,無進(jìn)化發(fā)生方向的信息,通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點。

18. 質(zhì)譜(MS)是一種準(zhǔn)確測定真空中離子的分子質(zhì)量/電荷比(m/z)的方法,從而使分子質(zhì)量的準(zhǔn)確確定成為可能。

質(zhì)譜分析的兩個工具

19. 分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。

20. 虛擬細(xì)胞:一種建模手段,把細(xì)胞定義為許多結(jié)構(gòu),分子,反應(yīng)和物質(zhì)流的集合體。

21. 先導(dǎo)化合物:是指具有一定藥理活性的、可通過結(jié)構(gòu)改造來優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。就是利用計算機在含有大量化合物三維結(jié)構(gòu)的數(shù)據(jù)庫中,搜索能與生物大分子靶點匹配的化合物,或者搜索能與結(jié)合藥效團(tuán)相符的化合物,又稱原型物,簡稱先導(dǎo)物,是通過各種途徑或方法得到的具有生物活性的化學(xué)結(jié)構(gòu)

22. 權(quán)重矩陣(序列輪廓):它們表示完全結(jié)構(gòu)域序列,多序列聯(lián)配中每個位點的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(課件定義)?;A(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的數(shù)據(jù)庫。

23. 系統(tǒng)發(fā)育學(xué)(phylogenetic):確定生物體間進(jìn)化關(guān)系的科學(xué)分支。

24. 系統(tǒng)生物學(xué)(systems biology):是研究一個生物系統(tǒng)中所有組分成分(基因、mRNA、蛋白質(zhì)等)的構(gòu)成以及在特定條件下這些組分間的相互關(guān)系,并分析生物系統(tǒng)在一定時間內(nèi)的動力學(xué)過程

25. 蛋白質(zhì)組(proteome):是指一個基因組、一種生物或一個細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。

26. ESI電噴霧離子化:一種適合大分子如蛋白質(zhì)離子化沒有明顯降解的質(zhì)譜技術(shù)。

1. 鳥槍法測序(shotgun method)一種測序方法,包括從基因組中獲得隨機的、已測序的克隆片段,并且對初始基因的位置一無所知。

2. BLAST:基本局部相似性比對搜索工具。在序列數(shù)據(jù)庫中快速查找與給定的序列具有最優(yōu)局部對準(zhǔn)結(jié)果的序列的一種序列對算法。

3. 整體聯(lián)配(global alignment):對兩個核苷酸或蛋白質(zhì)序列的全長所進(jìn)行的比對。

4. FASTA:是第一個被廣泛使用的數(shù)據(jù)庫相似性搜索算法,這個程序通過掃描序列中“詞”的小配對,從而尋找最優(yōu)局部比對。

5. 算法(algorithm):在計算機程序中包含的一種固定過程。

6. 序列比對(alignment):將兩個或多個序列排在一起,以達(dá)到最大一致性的過程(對于氨基酸序列是比較他們的保守性),這樣 評估序列間的相似性和同源性。

7. 多序列比對(multiple sequence alignment):三個或多個序列之間的比對,如果序列在同一列有相同結(jié)構(gòu)位置的殘基和(或)祖?zhèn)鞯臍埢?,則會在該位置插入空位。

8. 最佳聯(lián)配(optimal alignment):兩個序列之間有最高打分值的排列。

9. 空位(gap):在兩條序列比對過程中需要在檢測序列或目標(biāo)序列中引入空位,以表示插入或刪除。

10. 模塊替換矩陣(BLUSUM)在替換矩陣中,每個位置的打分是在相關(guān)蛋白局部比對模塊中觀察到的替換的頻率而獲得的,每個矩陣被修改成一個特殊的進(jìn)化距離。

11. 可接受點突變(PAM)一個用于衡量蛋白質(zhì)序列的進(jìn)化突變程度的單位。

12. 互補序列(complementary sequence)能夠與其他DNA片段根據(jù)堿基互補序列(A與T配對,G與C配對)形成兩練結(jié)構(gòu)的核苷酸序列。

13. 保守序列(conserved sequence)指DNA分子中的一個核苷酸片段或者蛋白質(zhì)中氨基酸片段,它們在進(jìn)化過程中基本保持不變。

14. 鄰接片段(contig)與支架(scaffold)

15. 鄰接片段:一組在染色體上有重疊區(qū)域的DNA片段的克??;

16. 支架:由序列重疊群拼接而成。

17. 注釋(annotation)對數(shù)據(jù)庫中原始的DNA堿基序列添加相關(guān)信息(比如編碼的基因,氨基酸序列等)或其他的注解。

18. 基因預(yù)測(gene prediction)用計算機程序?qū)赡艿幕蛩龅念A(yù)測,它是基于DNA片段與已知基因序列的匹配程度的。

19. 直系同源(Orthologous)指不同種類的同源序列,他們是在物種的形成事件中從一個祖先序列獨立進(jìn)化而成的,可能有相似功能,也可能沒有。

20. 旁系同源(paralogous)是通過類似基因復(fù)制的機制產(chǎn)生的同源序列。

21. 替換(substitution)在指定的位置不相同的氨基酸進(jìn)行連配,如果聯(lián)配的殘基有相似的物化性質(zhì),那么替換是保守的。

22. 表達(dá)序列標(biāo)簽(EST)一種短的DNA片段,是cDNA分子的一部分,可用來鑒定基因,通常用于基因定位和基因圖譜中。

23. 多態(tài)性(PolyMorphism)多個個體之間DNA的差異叫多態(tài)性。

24. 基因預(yù)測(Gene Prediction) 同19

25. 序列模式(Motif)蛋白質(zhì)序列中短的保守區(qū)域,它們是結(jié)構(gòu)域中保守性很高的部分。

26. 結(jié)構(gòu)域(domain):蛋白質(zhì)在折疊時候與其它部分相獨立的一個不連續(xù)部分,他有自己獨特的功能。

27. 開放閱讀框(ORF)位于DNA或RNA上起始密碼子與終止密碼子之間的序列。

28. 表達(dá)譜(profile)一個顯示某個同源家族中指定位置打分值和空位罰分的表格,可以用于搜索序列數(shù)據(jù)庫。

29. 分子鐘(molecular clock)對于每一個給定基因(或蛋白質(zhì))其分子進(jìn)化率大致是恒定的。

30. 系統(tǒng)發(fā)生(phylogeny)是指生物種族的進(jìn)化歷史,亦即生物體在整個進(jìn)化譜

31. 分子進(jìn)化樹(molecular evolutionary tree)在研究生物進(jìn)化和系統(tǒng)分類中,常用一種類似樹狀分支的圖形來概括各種(類)生物之間的親緣關(guān)系,這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetic tree)。

■一、選擇題:

1. 以下哪一個是mRNA條目序列號: A. J01536 ■. NM_15392 C. NP_52280 D. AAB134506

2. 確定某個基因在哪些組織中表達(dá)的最直接獲取相關(guān)信息方式是: ■. Unigene B. Entrez C. LocusLink D. PCR

3. 一個基因可能對應(yīng)兩個Unigene簇嗎? ■可能 B. 不可能

4. 下面哪種數(shù)據(jù)庫源于mRNA信息: ■ dbEST B. PDB C. OMIM D. HTGS

5. 下面哪個數(shù)據(jù)庫面向人類疾病構(gòu)建: A. EST B. PDB ■. OMIM D. HTGS

6. Refseq和GenBank有什么區(qū)別: A. Refseq包括了全世界各個實驗室和測序項目提交的DNA序列B. GenBank提供的是非冗余序列

■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq

7. 如果你需要查詢文獻(xiàn)信息,下列哪個數(shù)據(jù)庫是你最佳選擇: A. OMIM B. Entrez ■ PubMed D. PROSITE

8. 比較從Entrez和ExPASy中提取有關(guān)蛋白質(zhì)序列信息的方法,下列哪種說法正確:A. 因為GenBank的數(shù)據(jù)比EMBL更多,Entrez給出的搜索結(jié)果將更多B. 搜索結(jié)果很可能一樣,因為GenBank和EMBL的序列數(shù)據(jù)實際一樣 ■ 搜索結(jié)果應(yīng)該相當(dāng),但是ExPASy中的SwissProt記錄的輸出格式不同

9. 天冬酰胺、色氨酸和酪氨酸的單字母代碼分別對應(yīng)于: ■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W

10. 直系同源定義為: ■ 不同物種中具有共同祖先的同源序列B. 具有較小的氨基酸一致性但是有較大的結(jié)構(gòu)相似性的同源序列

C. 同一物種中由基因復(fù)制產(chǎn)生的同源序列D. 同一物種中具有相似的并且通常是冗余的功能的同源序列

11. 下列那個氨基酸最不容易突變: A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸 ■ 半胱氨酸

12. PAM250矩陣定義的進(jìn)化距離為兩同源序列在給定的時間有多少百分比的氨基酸發(fā)生改變: A. 1% B. 20% ■. 80% D. 250%

13. 下列哪個句子最好的描述了兩個序列全局比對和局部比對的不同:A. 全局比對通常用于比對DNA序列,而局部比對通常用于比對蛋白質(zhì)序列B. 全局比對允許間隙,而局部比對不允許C. 全局比對尋找全局最大化,而局部比對尋找局部最大化 ■ 全局比對比對整體序列,而局部比對尋找最佳匹配子序列

14. 假設(shè)你有兩條遠(yuǎn)源相關(guān)蛋白質(zhì)序列。為了比較它們,最好使用下列哪個BLOSUM和PAM矩陣: ■ BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1

15. 與PAM打分矩陣比較,BLOSUM打分矩陣的最大區(qū)別是:A. 最好用于比對相關(guān)性高的蛋白B. 它是基于近相關(guān)蛋白的全局多序列比對

■ 它是基于遠(yuǎn)相關(guān)蛋白的局部多序列比對D. 它結(jié)合了全局比對和局部比對

16. 如果有一段DNA序列,它可能編碼多少種蛋白質(zhì)序列: A. 1 B. 2 C. 3 ■. 6

17. 要在數(shù)據(jù)庫查詢一段與某DNA序列編碼蛋白質(zhì)最相似的序列,應(yīng)選擇: A. blastn B. blastp C. tblastn D. tblastp ■ blastx

18. 為什么ClustalW(一個采用了Feng-Doolittle漸進(jìn)比對算法的程序)不報告E值:A. ClustalW報告E值 ■ 使用了全局比對 C. 使用了局部比對 D. 因為是多序列比對

19. Feng-Doolittle方法提出“一旦是空隙,永遠(yuǎn)是空隙”規(guī)則的依據(jù)是:A. 保證空隙不會引物序列加入而填充B. 假定進(jìn)化早期分歧的序列有較高優(yōu)先級別■ 假定最近序列空隙應(yīng)該保留 D. 假定最遠(yuǎn)序列空隙應(yīng)該保留

20. 根據(jù)分子鐘假說: A. 所有蛋白質(zhì)都保持一個相同的恒定進(jìn)化速率 B. 所有蛋白質(zhì)的進(jìn)化速率都與化石記錄相符合C. 對于每一個給定的蛋白質(zhì),分子進(jìn)化的速率是逐漸減慢的,就如同不準(zhǔn)時的鐘 ■ 對于每一個給定的蛋白質(zhì),其分子進(jìn)化的速率在所有的進(jìn)化分支上大致是恒定

21. 系統(tǒng)發(fā)生樹的兩個特征是: A. 進(jìn)化分支和進(jìn)化節(jié)點 ■ 樹的拓?fù)浣Y(jié)構(gòu)和分支長度C. 進(jìn)化分支和樹根D. 序列比對和引導(dǎo)檢測方法

22. 下列哪一個是基于字母特征的系統(tǒng)發(fā)生分析的算法: A. 鄰位連接法(NJ法)B. Kimura算法 ■ 最大似然法(ML)D. 非加權(quán)平均法(UPGMA)

23. 基于字母特征和基于距離的系統(tǒng)發(fā)生分析的算法的基本差異是:■ 基于字母特征的算法沒有定義分支序列的中間數(shù)據(jù)矩陣

B. 基于字母特征的算法可應(yīng)用于DNA或者蛋白質(zhì)序列,而基于距離僅能用于DNA C. 基于字母特征的算法無法運用簡約算法 D. 基于字母特征的算法的進(jìn)化分支與進(jìn)化時間無關(guān)

24. 一個操作分類單元(OTU)可指:A. 多序列比對 ■ 蛋白質(zhì)序列C. 進(jìn)化分支D. 進(jìn)化節(jié)點

25. 構(gòu)建進(jìn)化樹最直接的錯誤來源是:■多序列比對錯誤B. 采樣的算法差異C. 假設(shè)進(jìn)化分支是單一起源D. 嘗試推測基因的進(jìn)化關(guān)系

26. 第一個被完整測定的基因組序列是: A. 啤酒酵母的3號染色體B. 流感病毒 ■ ФX174 D. 人類基因組

27. 普通的真核生物線粒體基因組編碼大約多少個蛋白質(zhì): ■ 10 B. 100 C. 1000 D. 10000

28. 根據(jù)基因組序列預(yù)測蛋白質(zhì)編碼基因的算法的最大問題是: A. 軟件太難使用 ■. 假陽性率太高,許多不是外顯子的序列部分被錯誤指定C. 假陽性率太高,許多不是外顯子功能未知 D. 假陰性率太高,丟失太多外顯子位點

29. HIV病毒亞型的系統(tǒng)演化研究可以: A. 證實HIV病毒是由牛病毒演化而來 ■. 用于指導(dǎo)開發(fā)針對保守蛋白的疫苗C. 證實哪些人類組織最容易遭受病毒侵染

30. 一個典型的細(xì)菌基因組大小約為多少bp: A. 20000 ■. 200000 C. 2000000 D. 20000000

31. 細(xì)菌基因組與真核生物基因組分析工具存在較大差異的主要原因是:A. 細(xì)菌擁有不同的密碼子 B. 細(xì)菌沒有細(xì)胞核C. 細(xì)菌很少有基因與真核同源 ■細(xì)菌DNA的基因含量、組成結(jié)構(gòu)很不一樣

32. 下列具有最小基因組的原核生物可能是:A. 嗜極生物B. 病毒 ■ 胞內(nèi)細(xì)菌D. 桿菌

33. 要證明某大腸桿菌中的某個基因是水平轉(zhuǎn)移而來,需要:A. 分析該大腸桿菌中該基因的GC含量與其他基因是否有很大差異B. 分析該大腸桿菌中該基因的密碼子使用與其他基因是否有很大差異C. 系統(tǒng)發(fā)生分析該基因與其他物種中基因的同源關(guān)系 ■獲取以上三個方面的信息

34. C值矛盾是指: A. 某些基因組中核苷酸C的含量少B. 真核生物基因組大小同編碼蛋白質(zhì)的基因個數(shù)沒有相關(guān)性

■真核生物基因組大小同屋中的復(fù)雜性相關(guān)性很小D. 真核生物基因組大小同進(jìn)化上的年齡相關(guān)性小

35. 成百上千個4~8bp的重復(fù)序列單元最可能出現(xiàn)在: A. 散布性重復(fù)序列中 B. 假基因中 ■ 端粒中D. 片段復(fù)制區(qū)域

36. 從頭預(yù)測真核基因的原因有:A. 外顯子/內(nèi)含子邊界難以確定B. 內(nèi)含子長度可能只有幾個堿基對

C. 編碼區(qū)域的GC含量并不總是與非編碼區(qū)相同 ■ 以上三個方面的原因

37. 人類基因組大小大約是多少Mb: A. 130 B. 300 ■3000 D. 30000

38. 各種重復(fù)元件在人類基因組中大約占的百分比為: A. 5% B. 25% ■50% D. 95%

39. 蛋白質(zhì)編碼區(qū)域占人類基因組百分比是: ■ 1-5% B. 5-10% C. 10-20% D. 20-4-%

40. 人類基因組中GC含量高的區(qū)域:A. 基因密度相對較低 ■基因密度相對較高C. 基因密度多變 D. 基因所含密碼子相對較少

41. 人類復(fù)合孟德爾遺傳的基因疾病約占疾病基因的: ■ 1% B. 10% C. 50% D. 60%

42. 單基因疾病趨向于:■ 在普通人群較少見,并且發(fā)生時間較早 B. 在普通人群較常見,并且發(fā)生時間較早

C. 在普通人群較少見,并且發(fā)生時間較晚 D. 在普通人群較常見,并且發(fā)生時間較晚


二.填空題

1. 常用的三種序列格式:NBRF/PIR,FASTA和GDE

2. 初級序列數(shù)據(jù)庫:GenBank,EMBL和DDBJ

3. 蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT和TrEMBL

4. 提供蛋白質(zhì)功能注釋信息的數(shù)據(jù)庫:KEGG(京都基因和基因組百科全書)和PIR(蛋白質(zhì)信息資源)

5. 目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed

6. 數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具:Entrez,SRS,DBGET

7. 常用的序列搜索方法:FASTA和BLAST

8. 高分值局部聯(lián)配的BLAST參數(shù)是HSPs(高分值片段對),E(期望值)

9. 多序列聯(lián)配的常用軟件:Clustal

10. 蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫有:Pfam,SMART

11. 系統(tǒng)發(fā)育學(xué)的研究方法有:表現(xiàn)型分類法,遺傳分類法和進(jìn)化分類法

12. 系統(tǒng)發(fā)育樹的構(gòu)建方法: 距離矩陣法,最大簡約法和最大似然法

13. 常用系統(tǒng)發(fā)育分析軟件:PHYLIP

14. 檢測系統(tǒng)發(fā)育樹可靠性的技術(shù):bootstrapping和Jack-knifing

15. 原核生物和真核生物基因組中的注釋所涉及的問題是不同的

16. 檢測原核生物ORF的程序:NCBI ORF finder

17. 測試基因預(yù)測程序正確預(yù)測基因的能力的項目是GASP(基因預(yù)測評估項目)

18. 二級結(jié)構(gòu)的三種狀態(tài):α螺旋,β折疊和β轉(zhuǎn)角

19. 用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò),包括輸入層,隱含層和輸出層

20. 通過比較建模預(yù)測蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER(SWISS—MODEL網(wǎng)站)

21. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具:SEQUEST

22. 分子途徑最廣泛數(shù)據(jù)庫:KEGG

23. 聚類分析方法,分為有監(jiān)督學(xué)習(xí)方法,無監(jiān)督學(xué)習(xí)方法

24. 質(zhì)譜的兩個數(shù)據(jù)庫搜索工具:SEQEST和Lutkefish


二、問答題

1) 生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個階段

答:生物信息學(xué)的發(fā)展經(jīng)歷了3個階段。

第一個階段是前基因組時代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫的建立以及DNA和蛋白質(zhì)序列分析為主要工作;

第二階段是基因組時代。這一階段以各種基因組計劃測序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌?/p>

第三階段是后基因組時代。這一階段的主要工作是進(jìn)行大規(guī)模基因組分析、蛋白質(zhì)組分析以及其他各種基因組學(xué)研究。

2) 生物信息學(xué)步入后基因組時代后,其發(fā)展方向有哪幾個方面。

答:生物信息學(xué)步入后基因組時代后,其發(fā)展方向主要有:

①各種生物基因組測序及新基因的發(fā)現(xiàn);②單核苷酸多態(tài)性(SNP)分析;③基因組非編碼區(qū)信息結(jié)構(gòu)與分析;④比較基因組學(xué)和生物進(jìn)化研究;⑤蛋白質(zhì)結(jié)構(gòu)和功能的研究。

3)美國國家生物技術(shù)信息中心(NCBI)的主要工作是什么?請列舉3個以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。(NCBI維護(hù)的數(shù)據(jù)庫)NCBI的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和計算機科學(xué)的方法研究基礎(chǔ)生物,醫(yī)學(xué)問題。為科學(xué)界開發(fā),維護(hù)和分享一系列的生物信息數(shù)據(jù)庫;開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫,數(shù)據(jù)的儲存,交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。維護(hù)的主要數(shù)據(jù)庫包括

答:PubMed、核酸序列數(shù)據(jù)庫GenBank、PROW、三維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫MMDB。

4)序列的相似性與同源性有什么區(qū)別與聯(lián)系?

答:相似性是指序列之間相關(guān)的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物種具有共同的祖先,強調(diào)進(jìn)化上的親緣關(guān)系。P147

5)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?

答:blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較,可以尋找較遠(yuǎn)的關(guān)系;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對,對分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進(jìn)行比對,對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比對。P97

6)簡述BLAST搜索的算法思想。

答:BLAST是一種局部最優(yōu)比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對,這些小片段被叫做字”word”;當(dāng)一定長度的的字(W)與檢索序列的比對達(dá)到一個指定的最低分(T)后,初始比對就結(jié)束了;一個序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對,直到序列結(jié)束或者不再具有生物學(xué)顯著性,最后所得到的 序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運算速度,也維持了比對的精度。P95

7)什么是物種的標(biāo)記序列?

答:指物種特有的一段核苷酸序列??梢酝ㄟ^相似性查詢,得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn),且在其他物種中沒有的明顯相似的序列。

8)什么是多序列全局比對的累進(jìn)算法?(三個步驟)

答:第一,所有的序列之間逐一比對(雙重比對);第二,生成一個系統(tǒng)樹圖,將序列按相似性大致分組;第三,使用系統(tǒng)樹圖作為引導(dǎo),產(chǎn)生出最終的多序列比對結(jié)果。P52

9)簡述構(gòu)建進(jìn)化樹的步驟,每一步列舉1-2種使用的軟件或統(tǒng)計學(xué)方法。

答:(1)多序列比對:Clustal W

(2)校對比對結(jié)果:BIOEDIT

(3)建樹:MEGA

(4)評估系統(tǒng)發(fā)育信號和進(jìn)化樹的牢固度:自舉法(Bootstrap)P114

10)簡述除權(quán)配對法(UPGMA)的算法思想。

答:通過兩兩比對聚類的方法進(jìn)行,在開始時,每個序列分為一類,分別作為一個樹枝的生長點,然后將最近的兩序列合并,從而定義出一個節(jié)點,將這個過程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進(jìn)化樹。P119

11)簡述鄰接法(NJ)構(gòu)樹的算法思想。

答:鄰接法的思想不僅僅計算最小兩兩比對距離,還對整個樹的長度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始,所有的物種都從一個中心節(jié)點出發(fā),然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列,每一輪過程中考慮所有可能的序列對,把能使樹的整個分支長度最小的序列對一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P117

12)簡述最大簡約法(MP)的算法思想。P68

答:是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡約分析(或稱為同等加權(quán))和加權(quán)最大簡約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點進(jìn)化速率不同)而對其進(jìn)行不同的加權(quán)處理。P120

13)簡述最大似然法(ML)的算法思想。P69

答:是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個合適的進(jìn)化模型,然后對所有可能的進(jìn)化樹進(jìn)行評估,通過對每個進(jìn)化位點的替代分配一個概率,最后找出概率最大的進(jìn)化樹。P122

14)UPGMA構(gòu)樹法不精確的原因是什么?P69

答:由個于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時,得到的進(jìn)化樹相對來說不準(zhǔn)確的。P119,倒數(shù)第2段,前4行。

15) 在MEGA2軟件中,提供了哪些堿基替換距離模型,試列舉其中3種,解釋其含義。

答:堿基替換模型包括,No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distance

p-distance: 表示有差異的核苷酸位點在序列中所占比例,將有差異的核苷酸位點數(shù)除已經(jīng)比對的總位點數(shù)就可以得到

Jukes-Cantor:模型假設(shè) A T C G 的替換速率是一致的,然后給出兩個序列核苷酸替換數(shù)的最大似然估計

Kimura 2-parameter:模型考慮到了轉(zhuǎn)換很顛換隊多重?fù)糁械挠绊?,但假設(shè)整個序列中4鐘核苷酸的頻率是相同哈德在不同位點上的堿基替換頻率是相同的

16)列舉5項DNA序列分析的內(nèi)容及代表性分析工具。

答:(1)尋找重復(fù)元件:RepeatMasker

(2)同源性檢索確定是否存在已知基因:BLASTn

(3)從頭開始方法預(yù)測基因:Genscan

(4)分析各種調(diào)控序列:TRES/DRAGON PROMOTOR FINDER

(5) CpG島:CpGPlot P130,表格

代表性工具:ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise

17)如何用BLAST發(fā)現(xiàn)新基因?

答:從一個一直蛋白質(zhì)序列開始,通過tBLASTn工具搜索一個DNA數(shù)據(jù)庫,可以找到相應(yīng)的匹配,如與DNA編碼的已知蛋白質(zhì)的匹配或者與DNA編碼的相關(guān)蛋白質(zhì)的匹配。然后通過BLASTx或BLASTp在蛋白質(zhì)數(shù)據(jù)庫中搜索DNA或蛋白質(zhì)序列來“確定”一個新基因。

18)試述SCOP蛋白質(zhì)分類方案

答:SCOP將PDB數(shù)據(jù)庫中的蛋白質(zhì)按傳統(tǒng)分類方法分成α型、β型、α/β型、α+β型,并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、N蛋白單獨分類,一共分成7種類型,并在此基礎(chǔ)上,按折疊類型、超家族、家族三個層次逐級分類。對于具有不同種屬來源的同源蛋白家族,SCOP數(shù)據(jù)庫按照種屬名稱將它們分成若干子類,一直到蛋白質(zhì)分子的亞基。

19)試述SWISS-PROT中的數(shù)據(jù)來源。

答:(1)從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來;

(2)從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù);

(3)從科學(xué)文獻(xiàn)中摘錄;

(4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。

20)TrEMBL哪兩個部分?

答:

(1)SP-TrEMBL(SWISS-PROT TrEMBL)

包含最終將要集成到SWISS-PROT的數(shù)據(jù),所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號。

(2)REM-TrEMBL(REMaining TrEMBL)

包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒有登錄號。


21)試述PSI-BLAST 搜索的5個步驟。

答:

[1] 選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫;

[2] PSI-BLAST 構(gòu)建一個多序列比對,然后創(chuàng)建一個序列表譜(profile)又稱特定位置打分矩陣(PSSM);

[3] PSSM被用作 query搜索數(shù)據(jù)庫

[4] PSI-BLAST 估計統(tǒng)計學(xué)意義 (E values)

[5] 重復(fù) [3] 和 [4] , 直到?jīng)]有新的序列發(fā)現(xiàn)。

22)列舉5種常用的系統(tǒng)發(fā)育分析軟件 PHYLIP、PAUP、MEGA、PAML、TreeView。

三. 操作與計算題

1.如何獲取訪問號為U49845的genbank文件?解釋如下genbank文件的LOCUS行提供的信息:

LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

答:(1)訪問NCBI的Entrez檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫,(3)輸入U49845序列訪問號開始檢索。

第一項是LOCUS名稱,前三個字母代表物種名

第二項是序列長度

第三項是序列分子類型

第四項是分子為線性的

第五項是GenBank分類碼

第六項是最后修訂日期 P13

2.利用Entrez檢索系統(tǒng)對核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:

AF114696:AF114714[ACCN]。P35

答:獲得序列訪問號AF114696到AF114714之間的連續(xù)編號的序列。

3.相比使用BLAST套件搜索數(shù)據(jù)庫,BLAST2工具在結(jié)果呈現(xiàn)上有什么優(yōu)點?

答:BLAST2序列分析工具,它能進(jìn)行兩條序列的精確比對,同時給出兩序列的圖形化比對結(jié)果和文本形式的聯(lián)配結(jié)果。

4.MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE格式的多序列比對文件?

答:(1)選擇菜單file,(2)選擇Text File Editor and Format Coverter 工具,(3)調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式,(4)獲得轉(zhuǎn)換后的MEGA格式的文件并保存。

5.什么簡約信息位點Pi?

答:指基于DNA或蛋白質(zhì)序列,應(yīng)用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時,如果某個位點的狀態(tài)存在兩種或兩種以上,每種狀態(tài)出現(xiàn)兩次或兩次以上,這樣的位點稱簡約信息位點。

6. 以下軟件的主要用途是什么?

RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.

答:RepeatMasker:是對重復(fù)序列進(jìn)行分析的軟件

GpGPlot:用來查找一條DNA序列中CpG島,使用Gardine-Garden和Frommer描述的方法

Splice View:是對一段序列進(jìn)行剪接位點的分析即其中的受體和供體位點

Genscan:是一種從頭分析工具

ORF finder:是用來分析序列ORF的工具

neural networkpromoter prediction:神經(jīng)網(wǎng)絡(luò)啟動子預(yù)測是另外一種分析啟動子的方法

10.試述蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的三類方法

(1)同源建模,(1) 同源建模方法:對于一個未知結(jié)構(gòu)的蛋白質(zhì),找到一個已知結(jié)構(gòu)的同源蛋白質(zhì),以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型,序列相似性低于30%的蛋白質(zhì)難以得到理想的結(jié)構(gòu)模型;(2)在已知結(jié)模板的序列一致率小于25%時,使用折疊識別方法進(jìn)行預(yù)測;(3)在找不到已知結(jié)構(gòu)的蛋白質(zhì)模板時使用從頭預(yù)測的方法。

1. FASTA序列格式

第一行以“>”開頭但并沒有指明是蛋白質(zhì)還是核酸序列。后跟代碼,接著是注釋(在同一行),通常注釋要以“|”符號相隔,第一行沒有長度限制。值得注意的是FASTA文件允許以小寫字母表示氨基酸。文件擴(kuò)展名為“.fasta”。

NBIR/PIR序列格式

第一行以“>”開頭,后面緊跟兩字母編碼(P1代表蛋白質(zhì)序列,N1代表核酸),再接一個分號,分號后緊跟序列標(biāo)識號。后面是說明行,該行可長可短,沒有長度限制。接下來是序列本身,以“*”號終止。文件的擴(kuò)展名為“.pir”或“.seq”。

GDE序列格式

FASTA的格式基本相同,但行首為“%”,文件擴(kuò)展名為“.gde”。)


2. BLAST的五個子程序

程序

查詢序列

數(shù)據(jù)庫種類

簡述

方法

Blastp

蛋白質(zhì)

蛋白質(zhì)

可以找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列

待搜索蛋白序列與蛋白數(shù)據(jù)庫比較

Blastn

核苷酸

核苷酸

適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系

待搜索核酸序列與核酸數(shù)據(jù)庫比較

Blastx

核苷酸

(已翻譯)

蛋白質(zhì)

適合新DNA序列和EST序列的分析

將待搜索核酸序列按6個讀框翻譯成蛋白質(zhì)序列,然后與數(shù)據(jù)庫中的蛋白質(zhì)比較

TBlastn

蛋白質(zhì)

核苷酸

(已翻譯)

適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)

將數(shù)據(jù)庫中核酸序列按6個讀框翻譯成蛋白序列,然后與待搜索蛋白序列對比

TBlastx

核苷酸

(已翻譯)

核苷酸

(已翻譯)

適合分析EST序列

無論是待搜索核酸序列還是數(shù)據(jù)庫中核酸序列,都按6個讀框翻譯成蛋白序列

3. 生物類的數(shù)據(jù)庫類別:

一級數(shù)據(jù)庫:數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;

二級數(shù)據(jù)庫:對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。

4. PSI-Blast的原理:

PSI-BLAST是一種將雙序列比對和多序列比對結(jié)合在一起的數(shù)據(jù)庫搜索方法。其主要思想是通過多次迭代找出最佳結(jié)果。每次迭代都發(fā)現(xiàn)一些中間序列,用于在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列(拓展了序列進(jìn)化關(guān)系的覆蓋面積)。

具體做法是最初對查詢序列進(jìn)行BLAST搜索,接著把查找得到的每一擊中項作為BLAST搜索第二次迭代的查詢序列,重復(fù)這個過程直到找不到有意義的相似序列為止。

(以下為研究生課件部分)

PSI-BLAST的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個位點特異性的序列譜,并通過多次迭代不斷改進(jìn)這一序列譜以提高搜索的靈敏度。

利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣,并用于第二次的搜索,第二次搜索結(jié)果用于第三次搜索,依此類推,直到找出最佳搜索結(jié)果。此外,BLAST不僅可用于檢測序列對數(shù)據(jù)庫的搜索,還可用于兩個序列之間的比對。


5. 多序列聯(lián)配的意義:

1)分析多個序列的一致序列;2)用于進(jìn)化分析,是用系統(tǒng)發(fā)育方法構(gòu)建進(jìn)化樹的初始步驟;3)尋找個體間單核苷酸多態(tài)性;4)通過序列比對發(fā)現(xiàn)直親同源與旁系同源基因;5)尋找同源基因(相似的序列往往具有同源性);6)尋找蛋白家族識別多個序列的保守區(qū)域;7)相似的蛋白序列往往具有相似的結(jié)構(gòu)與功能;8)輔助預(yù)測新序列的二級或三級結(jié)構(gòu);9)可以直觀地看到基因的哪些區(qū)域?qū)ν蛔兠舾校?0)PCR引物設(shè)計。


6. 系統(tǒng)發(fā)育學(xué)的研究方法:

1)表現(xiàn)型分類法:將表型相像的物種歸類在一起,所有特征都要被考慮到;

2)遺傳分類法:具有共有起源的物種歸類在一起,也就是說,這些字符并沒有出現(xiàn)在離它們較遠(yuǎn)的祖先序列;

3)進(jìn)化分類法:該方法綜合了表現(xiàn)型分類法和遺傳分類法的原理,進(jìn)化方法被普遍認(rèn)為是最好的系統(tǒng)發(fā)育分析方法,因為該方法承認(rèn)并采用目前的進(jìn)化理論;

7. 系統(tǒng)發(fā)育樹的構(gòu)建方法:

1)距離矩陣法:首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推到得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣,其次基于這個矩陣中的進(jìn)化距離關(guān)系構(gòu)建進(jìn)化樹;

2)最大簡約法:該法依據(jù)在任何位置將一條序列轉(zhuǎn)變成另一條序列所需要突變的最少數(shù)量對序列進(jìn)行比較和聚類;

3)最大似然法:該模型可將一個給定替代發(fā)生在序列中任何位置的概率融合進(jìn)算法,該方法計算序列中每個位置的一個給定序列變化的可能性,最可靠的樹為總的可能性最大的那棵。

8. 簡述人工神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的基本步驟。

1)輸入數(shù)據(jù)(來自PDB)

2)產(chǎn)生一個神經(jīng)網(wǎng)絡(luò)(一個計算程序)

3)用已知的蛋白質(zhì)二級結(jié)構(gòu)來訓(xùn)練這個模型

4)由訓(xùn)練好的模型來給出未知蛋白的一個可能的結(jié)構(gòu)

5)最后從生物角度來檢驗預(yù)測的一系列氨基酸是否合理

9. 預(yù)測蛋白質(zhì)三級結(jié)構(gòu)的三種方法

1)同源建模法:依據(jù)蛋白質(zhì)與已知結(jié)構(gòu)蛋白比對信息構(gòu)建3D模型;

2)折疊識別法:尋找與未知蛋白最合適的模板,進(jìn)行序列與結(jié)構(gòu)比對,最終建立結(jié)構(gòu)模型;

3)從頭預(yù)測法:根據(jù)序列本身從頭預(yù)測蛋白質(zhì)結(jié)構(gòu)。

10. 分子途徑和網(wǎng)絡(luò)的特點:

1)分子途徑和網(wǎng)絡(luò)的結(jié)構(gòu)隨意性大。圖可以很簡單,也可以非常復(fù)雜。它們可能包含了多個分支,盤繞的連接和回路。

2)它們通常也顯示出節(jié)點間關(guān)系的方向,例如表示出代謝通路或信號傳導(dǎo)的方向。調(diào)控途徑和網(wǎng)絡(luò)的圖也應(yīng)該說明相互作用是正的還是負(fù)的。正的相互作用(促進(jìn)或者活化作用)常常用箭頭表示,而負(fù)的交互效應(yīng)(抑制或者失活作用)常常用T型棒表示。

11. 先導(dǎo)化合物的來源有四種來源:

1)通過偶然性觀察發(fā)現(xiàn)的先導(dǎo)化合物(這個方法最著名的例子就是亞歷山大.弗萊明發(fā)現(xiàn)的青霉素,今天所用的許多抗生素皆由其發(fā)展出來)

2)也可以通過替代療法的藥物開發(fā)中發(fā)現(xiàn)的藥物副作用來識別先導(dǎo)化合物(例如,鎮(zhèn)定劑氯化物丙嫀是在試驗中發(fā)現(xiàn)用在抗組胺劑時被發(fā)現(xiàn)的)

3)先導(dǎo)化合物也可以來自傳統(tǒng)醫(yī)藥學(xué)(如奎寧化合物就來自金雞納的樹皮)

4)先導(dǎo)化合物也可以來自天然的底物或是配體(比如說,腎上腺素作為舒喘寧的類似物用來治療哮喘)


12. 簡述DNA計算機的基本原理:

1)以編碼生命信息的遺傳物質(zhì)—DNA序列,作為信息編碼的載體,利用DNA分子的雙螺旋結(jié)構(gòu)和堿基互補配對的性質(zhì),將所要處理的問題映射為特定的DNA分子;

2)在生物酶的作用下,通過可控的生化反應(yīng)生成問題的解空間;最后利用各種現(xiàn)代分子生物技術(shù)如聚合酶鏈反應(yīng)RCR、超聲波降解、親和層析、分子純化、電泳、磁珠分離等手段破獲運算結(jié)果。

DNA計算機優(yōu)點:低能耗、存儲容量高、運算速度快,可真正實現(xiàn)并行工作。


13. 簡述DNA計算實現(xiàn)方式中,表面方式與試管方式相比具有哪些優(yōu)點?

試管方式:就是在一個或多個試管的溶液里進(jìn)行生化反應(yīng);

表面方式:是將對應(yīng)的解空間的DNA分子固定在一塊固體上,其次進(jìn)行各種生化反應(yīng),或是在表面逐步形成解空間,然后根據(jù)具體問題對所有可能的解進(jìn)行篩選,最后得到運算結(jié)果。

(1)操作簡單,易于實現(xiàn)自動化操作;

(2)減少人為操作過程中造成的DNA分子的丟失及其它操作失誤;

(3)減少分子在表面上的相互作用,同時增強分子間的特異性結(jié)合;

(4)信息儲存密度大,據(jù)估計,10毫克DNA表面上的儲存密度是傳統(tǒng)計算姬的10的8次方倍,而在溶液中僅為10的5次方倍;

(5)結(jié)果易于純化。


14. 簡述PCR引物設(shè)計的基本原則及其注意要點

原則:首先引物與模板的序列要緊密互補,其次引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu),再次引物不能再模板的非等位點引發(fā)DNA聚合反應(yīng)(即錯配)。

注意要點:1、引物的長度一般為15-30bp,常用的是18-27bp,但不應(yīng)大于38,因為過長會導(dǎo)致其延伸溫度大于74℃,不適合于TaqDNA聚合酶進(jìn)行反應(yīng)。

2、引物序列在模板內(nèi)應(yīng)當(dāng)沒有相似性較高,尤其是3’端相似性較高的序列,否則容易導(dǎo)致錯配。引物3’端出現(xiàn)3個以上的連續(xù)堿基,如GGG或CCC,也會使錯誤引發(fā)幾率增加。

3、引物3’端的末位堿基對Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯配位置導(dǎo)致不同的擴(kuò)增效率,末位堿基為A的錯配效率明顯高于其他3個堿基,因此應(yīng)當(dāng)避免在引物的3’端使用堿基。另外,引物二聚體或發(fā)夾結(jié)構(gòu)也可能導(dǎo)致PCR反應(yīng)失敗。5’端序列對PCR影響不太大,因此常用來引進(jìn)修飾位點或標(biāo)記物。

4、引物序列的GC含量一般為40-60%,過高或過低都不利于引發(fā)反應(yīng)。上下游引物的GC含量不能相差太大。


5、引物所對應(yīng)模板位置序列的Tm值在72℃左右可使復(fù)性條件最佳。Tm值的計算有很多種方法,如按公式Tm=4(G+C)+2(A+T),在Oligo軟件中使用的是最鄰近法(thenearestneighbormethod)。

6、G值是指DNA雙鏈形成所需的自由能,該值反映了雙鏈結(jié)構(gòu)內(nèi)部堿基對的相對穩(wěn)定性。應(yīng)當(dāng)選用3’端G值較低(絕對值不超過9),而在5’端和中間G值相對較高的引物。引物的3’端的G值過高,容易在錯配位點形成雙鏈結(jié)構(gòu)并引發(fā)DNA聚合反應(yīng)。

7、引物二聚體及發(fā)夾結(jié)構(gòu)的能值過高(超過4.5kcal/mol)易導(dǎo)致產(chǎn)生引物二聚體帶,并且降低引物有效濃度而使PCR反應(yīng)不能正常進(jìn)行。

8、對引物的修飾一般是在5’端增加酶切位點,應(yīng)根據(jù)下一步實驗中要插入PCR產(chǎn)物的載體的相應(yīng)序列而確定。


15. 假設(shè)你得到一段未知基因的DNA序列,從你學(xué)習(xí)到的生物信息學(xué)分析方法和軟件,設(shè)計一個分析流程來分析該未知基因的功能和家族類別(包括系統(tǒng)發(fā)育樹構(gòu)建)

1、得到未知基因的DNA序列,用Blast做序列比對,找出與其基因相似的核苷酸序列和蛋白質(zhì)序列。

2、接著,用搜索出來的較相似的序列用ClustW進(jìn)行多序列比對,得到該序列的保守情況和突變情況。

3、最后用距離法構(gòu)建系統(tǒng)發(fā)育樹。

16. 假設(shè)你得到一段未知蛋白的氨基酸序列,從你學(xué)習(xí)到的生物信息學(xué)分析方法和軟件,設(shè)計一個分析流程來分析該未知蛋白的功能和家族類別以及其結(jié)構(gòu)預(yù)測。

1、用該序列進(jìn)行BLASTP搜索。

2、再對其進(jìn)行蛋白質(zhì)結(jié)構(gòu)域、功能域的搜索,可以用Znterproscan、Pfam,并對其進(jìn)行結(jié)構(gòu)分析。

3、再用ClustW進(jìn)行多序列比對。

4、用人工神經(jīng)網(wǎng)絡(luò)的方法對其結(jié)構(gòu)進(jìn)行結(jié)構(gòu)預(yù)測。


17. BLAST中,E值和P值分別是什么,它們有什么意義?

答:BLAST中使用的統(tǒng)計值有概率p值和期望e值。

E期望值(E-value)這個數(shù)值表示你僅僅因為隨機性造成獲得這一比對結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對結(jié)果越顯著。默認(rèn)值為10,表示比對結(jié)果中將有10個匹配序列是由隨機產(chǎn)生,如果比對的統(tǒng)計顯著性值(E值)小于該值(10),則該比對結(jié)果將被檢出,換句話說,比較低的E值將使搜索的匹配要求更嚴(yán)格,結(jié)果報告中隨機產(chǎn)生的匹配序列減少。

p值表示比對結(jié)果得到的分?jǐn)?shù)值的可信度。一般說來,p值越接近于零,則比對結(jié)果的可信度越大;相反,p值越大,則比對結(jié)果來自隨機匹配的可能性越大。


18. 什么是序列比對中使用的PAM矩陣和BLOSUM矩陣,它們的作用是什么,一般BLAST選擇使用的矩陣是什么

答:PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoring matrix)。記分矩陣中含有對齊時具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇,若要進(jìn)行突變性質(zhì)的進(jìn)化分析時可以使用PAM,F(xiàn)ASTA缺省推薦BLOSUM50矩陣。

PAM矩陣(Point Accepted Mutation)基于進(jìn)化的點突變模型,如果兩種氨基酸替換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。一個PAM就是一個進(jìn)化的變異單位, 即1%的氨基酸改變,但這并不意味100次PAM后,每個氨基酸都發(fā)生變化,因為其中一些位置可能會經(jīng)過多次突變,甚至可能會變回到原來的氨基酸。

模塊替換矩陣BLOSUM(BLOcks Substitution Matrix)首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列),分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數(shù)據(jù)),然后,以所有 60%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM60;以所有80%保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM80。

19. 為什么蛋白質(zhì)空間結(jié)構(gòu)預(yù)測很重要,目前有哪幾條途徑用于從蛋白質(zhì)的氨基酸序列預(yù)測其空間三維結(jié)構(gòu)?

答:蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測很重要。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)如何行使其生物功能,認(rèn)識蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時為新的藥物分子設(shè)計提供合理的靶分子結(jié)構(gòu)。

目前有三條途徑用于從蛋白質(zhì)一級序列預(yù)測其空間三維結(jié)構(gòu):

A、同源建模法。是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的主要方法。對于一個未知結(jié)構(gòu)的蛋白質(zhì),首先通過序列同源分析找到一個已知結(jié)構(gòu)的同源蛋白質(zhì),然后,以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。前提是必須要有一個已知結(jié)構(gòu)的同源蛋白質(zhì)。

B、穿針引線法。需建立核心折疊數(shù)據(jù)庫,在預(yù)測蛋白質(zhì)空間結(jié)構(gòu)時將一個待預(yù)測結(jié)構(gòu)的蛋白質(zhì)序列與數(shù)據(jù)庫中核心折疊進(jìn)行比對,找出比對結(jié)果最好的核心折疊,作為構(gòu)造待預(yù)測蛋白質(zhì)結(jié)構(gòu)模型的根據(jù)。

C、從頭開始法。在既沒有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒有已知結(jié)構(gòu)的遠(yuǎn)程同源蛋白質(zhì)的情況下,直接根據(jù)序列本身來預(yù)測其結(jié)構(gòu)。該方法先對蛋白質(zhì)及溶劑作近似處理,再建立能量函數(shù),通過對構(gòu)象空間進(jìn)行快速搜索找到與某一全局最小能量相對應(yīng)的構(gòu)象。

簡答題

1) 生物信息學(xué)數(shù)據(jù)庫的組成包括哪些部分?數(shù)據(jù)庫有哪些類型? 答案:生物信息學(xué)數(shù)據(jù)庫的組成包括一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。

2) 簡要介紹 GenBank中的DNA序列格式。答案:GenBank中的DNA序列格式可以分成三個部分,第一部分為描述符,從第一行LOCUS行到ORIGIN行,包含了關(guān)于整個記錄的信息;第二部分為特性表,從FEATURES行開始,包含了注釋這一紀(jì)錄的特性,是條目的核心,中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。

3) 簡要介紹FASTA序列格式 答案:FASTA格式,又叫Pearson格式,是最簡單的,使用最多的格式。它的基本形式分為三個部分:⑴第一行:大于號(﹥)表示一個新的序列文件的開始,為標(biāo)記符。后面可以加上文字說明,gi號,GenBank檢索號,LOCUS名稱等信息。⑵第二行:序列本身,為DNA的標(biāo)準(zhǔn)符號,通常大小寫均可。⑶結(jié)束:無特殊標(biāo)志,但建議多留一個空行,以便將序列和其他內(nèi)容區(qū)分開。

4) 生物信息學(xué)數(shù)據(jù)庫的要求和基本特征是什么? 答案

5) 生物信息學(xué)的基本方法有哪些? 答案略

6) 生物信息學(xué)的目標(biāo)和任務(wù)?答案:收集和管理生物分子數(shù)據(jù);數(shù)據(jù)分析和挖掘;開發(fā)分析工具和實用軟件:生物分子序列比較工具、基因識別工具、生物分子結(jié)構(gòu)預(yù)測工具、基因表達(dá)數(shù)據(jù)分析工具。

7) 生物信息學(xué)主要研究內(nèi)容。答案(1)生物分子數(shù)據(jù)的收集與管理;(2)數(shù)據(jù)庫搜索及序列比較 ;(3)基因組序列分析;(4)基因表達(dá)數(shù)據(jù)的分析與處理 ;(5)蛋白質(zhì)結(jié)構(gòu)預(yù)測。

8) 為什么要構(gòu)建生物分子數(shù)據(jù)庫。答案:(1)生物分子數(shù)據(jù)高速增長 (2)分子生物學(xué)及相關(guān)領(lǐng)域研究人員迅速獲得最新實驗數(shù)據(jù)。

9) 預(yù)測基因的一般步驟是什么? 答案:⑴獲取DNA目標(biāo)序列⑵查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列⑶在數(shù)據(jù)庫中進(jìn)行序列搜索,利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索⑷進(jìn)行目標(biāo)序列與搜索得到的相似序列的全局對比⑸查找基因家族進(jìn)行多序列比對,獲得比對區(qū)段的基因家族信息⑹查找目標(biāo)序列中的特定模序,分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進(jìn)行profile、模塊(block)、模序(motif)檢索⑺預(yù)測目標(biāo)序列蛋白質(zhì)結(jié)構(gòu),利用PredictProtein(EMBL)、NNPREDICT等預(yù)測目標(biāo)序列的蛋白質(zhì)二級結(jié)構(gòu)。

10) 生物信息學(xué)所用的方法和技術(shù)。答案(1)數(shù)學(xué)統(tǒng)計方法;(2)動態(tài)規(guī)劃方法 ;(3)機器學(xué)習(xí)與模式識別技術(shù) ;(4)數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘 ;(5)人工神經(jīng)網(wǎng)絡(luò)技術(shù);(6)專家系統(tǒng) ;(7)分子模型化技術(shù);(8)量子力學(xué)和分子力學(xué)計算 ;(9)生物分子的計算機模擬;(10)因特網(wǎng)(Internet)技術(shù)。

11) 國際上權(quán)威的核酸序列數(shù)據(jù)庫有那些?答案(1)歐洲分子生物學(xué)實驗室的EMBL 。(2)美國生物技術(shù)信息中心的GenBank。(3)日本遺傳研究所的DDBJ。

12) 生物信息學(xué)在基因芯片中的應(yīng)用有哪些?答案:(1)確定芯片檢測目標(biāo)。(2)芯片設(shè)計。(3)實驗數(shù)據(jù)管理與分析。

13) 生物信息學(xué)分析的數(shù)據(jù)對象主要有哪幾種?這些數(shù)據(jù)之間存在著什么關(guān)系?答案:其研究重點主要落實在核酸和蛋白質(zhì)兩個方面,包括它們的序列、結(jié)構(gòu)和功能。生物信息學(xué)以基因組DNA序列信息分析作為出發(fā)點,破譯遺傳語言,認(rèn)識遺傳信息的組織規(guī)律,辨別隱藏在DNA序列中的基因,掌握基因調(diào)控信息,對蛋白質(zhì)空間結(jié)構(gòu)進(jìn)行模擬和預(yù)測,依據(jù)蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系進(jìn)行藥物分子設(shè)計。

14) 基因芯片對于生物分子信息檢測的作用和意義?答案:在生命科學(xué)領(lǐng)域中,基因芯片為分子生物學(xué)、生物醫(yī)學(xué)等研究提供了強有力的手段。利用基因芯片技術(shù),可研究生命體系中不同部位、不同生長發(fā)育階段的基因表達(dá),比較不同個體或物種之間的基因表達(dá),比較正常和疾病狀態(tài)下基因及其表達(dá)的差異?;蛐酒夹g(shù)也有助于研究不同層次的多基因協(xié)同作用的生命過程,發(fā)現(xiàn)新的基因功能,研究生物體在進(jìn)化、發(fā)育、遺傳過程中的規(guī)律。

15) 在基因組序列分析方面,科學(xué)家關(guān)注哪些信息?答案:就人類基因組而言,編碼區(qū)域在人類基因組所占的比例不超過3%。其余97%是非編碼序列。對于非編碼序列,人們了解得比較少,尚不清楚其含義或功能。然而,非編碼區(qū)域?qū)τ谏顒泳哂兄匾囊饬x。這部分序列主要包括內(nèi)含子、簡單重復(fù)序列、移動元件(mobile element)及其遺留物、偽基因(pseudo gene)等。

16) 為什么要進(jìn)行序列片段組裝?在進(jìn)行序列片段組裝時會遇到哪些問題?答案:大規(guī)?;蚪M測序得到待測序列的一系列序列片段,這些序列片段覆蓋待測序列,序列片段之間也存在著相互覆蓋或者重疊。遇到的問題:堿基標(biāo)識錯誤;不知道片段的方向;存在重復(fù)區(qū)域;缺少覆蓋。

17) 序列分析的任務(wù)和目的分別是什么?答案:任務(wù)(1)發(fā)現(xiàn)序列之間的相似性;(2)辨別序列之間的差異。目的:(1)相似序列:相似的結(jié)構(gòu),相似的功能 (2)判別序列之間的同源性(3)推測序列之間的進(jìn)化關(guān)系

18) PCR引物設(shè)計有哪些原則?答案:⑴產(chǎn)物不能形成二級結(jié)構(gòu);⑵引物長度一般在15~30個堿基之間;⑶G+C含量在40%~60%之間;⑷堿基要隨機分布;⑸引物自身不能有連續(xù)4個堿基互補;⑹引物之間不能有連續(xù)4個堿基的互補;⑺引物端可以修飾;⑻引物不可修飾;⑼引物端要避開密碼子的第三位。

19) 生物分子數(shù)據(jù)類型有哪些?答案:DNA序列數(shù)據(jù)、蛋白質(zhì)序列數(shù)據(jù)、生物分子結(jié)構(gòu)數(shù)據(jù)、生物分子功能數(shù)據(jù)、

20) 基因識別:答案:基因識別,是生物信息學(xué)的一個重要分支,使用生物學(xué)實驗或計算機等手段識別DNA序列上的具有生物學(xué)特征的片段?;蜃R別的對象主要是蛋白質(zhì)編碼基因,也包括其他具有一定生物學(xué)功能的因子,如RNA基因和調(diào)控因子。

1) 生物信息學(xué)研究意義?

答案:

(1)認(rèn)識生物本質(zhì)

了解生物分子信息的組織和結(jié)構(gòu),破譯基因組信息,闡明生物信息之間的關(guān)系。

(2)改變生物學(xué)的研究方式

改變傳統(tǒng)研究方式,引進(jìn)現(xiàn)代信息學(xué)方法

(3)在醫(yī)學(xué)上的重要意義

為疾病的診斷和治療提供依據(jù),為設(shè)計新藥提供依據(jù)

2) DNA雙螺旋結(jié)構(gòu)模型的意義

(1) 為合理解釋遺傳物質(zhì)的各種功能、解釋生物的遺傳和變異、揭示自然界色彩紛紜的生命現(xiàn)象奠定了理論基礎(chǔ);

(2) 揭示了生命世界多樣性和生命本質(zhì)的一致性的辨正統(tǒng)一;

(3) 現(xiàn)代生命科學(xué)的里程碑。

3) 什么是序列比對?及其基本分類?

答案:序列比對(Sequence Alignment)是通過在序列中搜索一系列單個性狀或性狀模式來比較2個(雙序列比對)或更多(多重序列比對)序列的方法。

序列比對的分類:A、 雙序列比對:兩條序列的比對。B、 多序列比對:三條或以上序列的比對

論述題

1) 簡述人類基因組計劃與生物信息學(xué)之間的相互促進(jìn)關(guān)系。

答案:

人類基因組計劃(Human Genome Project, HGP)是美國在1990年提出實施的一項偉大的科學(xué)計劃,與阿波羅登月計劃、曼哈頓原子彈計劃同稱為人類自然科學(xué)史上的三大計劃。自實施以來,該計劃在世界各國引起了很大反響。在人類基因組計劃中,人們準(zhǔn)備用15年時間,投入30億美元,完成人類全部24條染色體中3×109個堿基對(bp,base pair)的序列測定,其主要任務(wù)包括作圖(遺傳圖譜、物理圖譜的建立及轉(zhuǎn)錄圖譜的繪制)、測序和基因識別,還包括模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組的作圖和測序,以及信息系統(tǒng)的建立。

隨著人類基因組計劃的提出和實施,實驗數(shù)據(jù)和可利用信息急劇增加,人類基因組計劃提供了以往不可想象的巨量的生物學(xué)信息資源?;蚪M信息的收集、儲存、分發(fā)、分析顯得越來越緊迫和重要,信息的管理和分析成為人類基因組計劃實施過程中的一項重要工作,人類基因組計劃向信息學(xué)提出了巨大的挑戰(zhàn)。值得慶幸的是,人類基因組計劃一開始就與計算機技術(shù)、信息高速公路同步發(fā)展,信息技術(shù)為生物信息學(xué)的發(fā)展提供了非常好的條件,為生物信息學(xué)的研究和應(yīng)用提供了非常好的支撐。生物信息學(xué)與人類基因組計劃緊密結(jié)合,互相滲透,生物信息學(xué)成為基因組計劃不可分割的一部分。事實證明,人類基因組計劃在生物信息學(xué)的支持下,前進(jìn)步伐大大加快,已經(jīng)提前完成計劃,功能基因組研究也已經(jīng)全面展開。而人類基因組計劃反過來又大大促進(jìn)了生物信息學(xué)的發(fā)展,HGP豐富了生物信息學(xué)的研究內(nèi)容,促進(jìn)生物信息學(xué)新思想、新方法的產(chǎn)生,生物信息學(xué)在最近10年迅速發(fā)展的歷程證明了這一點。


2) 掌握蛋白質(zhì)結(jié)構(gòu)有什么意義?為什么要進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測?

答案(1)研究蛋白質(zhì)的結(jié)構(gòu)意義重大,分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計劃中的一個重要組成部分。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認(rèn)識蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對于生物學(xué)還是對于醫(yī)學(xué)和藥學(xué),都是非常重要的。(2)對于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,可以進(jìn)行功能注釋,指導(dǎo)設(shè)計進(jìn)行功能確認(rèn)的生物學(xué)實驗。通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時為新的藥物分子設(shè)計提供合理的靶分子結(jié)構(gòu)。




生物信息學(xué)-復(fù)習(xí)題及答案(打印)的評論 (共 條)

分享到微博請遵守國家法律
玉门市| 乳源| 桑植县| 三河市| 年辖:市辖区| 漯河市| 肥东县| 启东市| 肇源县| 平安县| 卓尼县| 大厂| 涟水县| 左权县| 昆山市| 社旗县| 甘孜县| 甘谷县| 扶绥县| 闸北区| 遵义市| 临潭县| 延津县| 沅陵县| 辽阳市| 景德镇市| 图木舒克市| 宽城| 金塔县| 台南县| 五家渠市| 健康| 区。| 新昌县| 家居| 遂溪县| 通州市| 桃江县| 龙岩市| 宜兰市| 朝阳县|