最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

生物信息學(xué)名詞解釋

2023-08-31 18:03 作者:答案資料  | 我要投稿


什么是高通量測序?

高通量測序技術(shù)(High-throughput sequencing,HTS)是對傳統(tǒng)Sanger測序(稱為一代測序技術(shù))革命性的改變, 一次對幾十萬到幾百萬條核酸分子進(jìn)行序列測定, 因此在有些文獻(xiàn)中稱其為下一代測序技術(shù)(next generation sequencing,NGS )足見其劃時(shí)代的改變, 同時(shí)高通量測序使得對一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能, 所以又被稱為深度測序(Deep sequencing)。

什么是Sanger法測序(一代測序)

Sanger法測序利用一種DNA聚合酶來延伸結(jié)合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。每一次序列測定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調(diào)整,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測。

什么是基因組重測序(Genome Re-sequencing)

全基因組重測序是對基因組序列已知的個(gè)體進(jìn)行基因組測序,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測序相結(jié)合的策略進(jìn)行高通量測序,實(shí)現(xiàn)在全基因組水平上檢測疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。

什么是de novo測序

de novo測序也稱為從頭測序:其不需要任何現(xiàn)有的序列資料就可以對某個(gè)物種進(jìn)行測序,利用生物信息學(xué)分析手段對序列進(jìn)行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對此物種了解的重要捷徑。隨著新一代測序技術(shù)的飛速發(fā)展,基因組測序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)?;蚪M測序漸入佳境,基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。利用新一代高通量、高效率測序技術(shù)以及強(qiáng)大的生物信息分析能力,可以高效、低成本地測定并分析所有生物的基因組序列。

什么是外顯子測序(whole exon sequencing)

外顯子組測序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行高通量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低,對研究已知基因的SNP、Indel等具有較大的優(yōu)勢,但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。

什么是mRNA測序 (RNA-seq)



轉(zhuǎn)錄組學(xué)(transcriptomics)是在基因組學(xué)后新興的一門學(xué)科,即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA(包括mRNA和非編碼RNA)的類型與拷貝數(shù)。Illumina提供的mRNA測序技術(shù)可在整個(gè)mRNA領(lǐng)域進(jìn)行各種相關(guān)研究和新的發(fā)現(xiàn)。mRNA測序不對引物或探針進(jìn)行設(shè)計(jì),可自由提供關(guān)于轉(zhuǎn)錄的客觀和權(quán)威信息。研究人員僅需要一次試驗(yàn)即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表達(dá)、cSNP、全新的轉(zhuǎn)錄、全新異構(gòu)體、剪接位點(diǎn)、等位基因特異性表達(dá)和罕見轉(zhuǎn)錄等最全面的轉(zhuǎn)錄組信息。簡單的樣品制備和數(shù)據(jù)分析軟件支持在所有物種中的mRNA測序研究。

什么是small RNA測序

Small RNA(micro RNAs、siRNAs和 pi RNAs)是生命活動重要的調(diào)控因子,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。Illumina能夠?qū)?xì)胞或者組織中的全部Small RNA進(jìn)行深度測序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30 nt范圍的Small RNA從總RNA中分離出來,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理后,利用測序儀對DNA片段進(jìn)行單向末端直接測序。通過Illumina對Small RNA大規(guī)模測序分析,可以從中獲得物種全基因組水平的miRNA圖譜,實(shí)現(xiàn)包括新miRNA分子的挖掘,其作用靶基因的預(yù)測和鑒定、樣品間差異表達(dá)分析、miRNAs聚類和表達(dá)譜分析等科學(xué)應(yīng)用。

什么是miRNA測序

成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子,通過與mRNA相互作用影響目標(biāo)mRNA的穩(wěn)定性及翻譯,最終誘導(dǎo)基因沉默,調(diào)控著基因表達(dá)、細(xì)胞生長、發(fā)育等生物學(xué)過程?;诘诙鷾y序技術(shù)的microRNA測序,可以一次性獲得數(shù)百萬條microRNA序列,能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的microRNA及其表達(dá)差異,為研究microRNA對細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具。

什么是Chip-seq

染色質(zhì)免疫共沉淀技術(shù)(ChromatinImmunoprecipitation,ChIP)也稱結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將ChIP與第二代測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。

ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對其進(jìn)行純化與文庫構(gòu)建;然后對富集得到的DNA片段進(jìn)行高通量測序。研究人員通過將獲得的數(shù)百萬條序列標(biāo)簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段信息。

什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolation by RNA Purification )是一種檢測與RNA綁定的DNA和蛋白的高通量測序方法。方法是通過設(shè)計(jì)生物素或鏈霉親和素探針,把目標(biāo)RNA拉下來以后,與其共同作用的DNA染色體片段就會附在到磁珠上,最后把染色體片段做高通量測序,這樣會得到該RNA能夠結(jié)合到在基因組的哪些區(qū)域,但由于蛋白測序技術(shù)不夠成熟,無法知道與該RNA結(jié)合的蛋白。

什么是RIP-seq

RNA Immunoprecipitation是研究細(xì)胞內(nèi)RNA與蛋白結(jié)合情況的技術(shù),是了解轉(zhuǎn)錄后調(diào)控網(wǎng)絡(luò)動態(tài)過程的有力工具,能幫助我們發(fā)現(xiàn)miRNA的調(diào)節(jié)靶點(diǎn)。這種技術(shù)運(yùn)用針對目標(biāo)蛋白的抗體把相應(yīng)的RNA-蛋白復(fù)合物沉淀下來,然后經(jīng)過分離純化就可以對結(jié)合在復(fù)合物上的RNA進(jìn)行測序分析。

RIP可以看成是普遍使用的染色質(zhì)免疫沉淀ChIP技術(shù)的類似應(yīng)用,但由于研究對象是RNA-蛋白復(fù)合物而不是DNA-蛋白復(fù)合物,RIP實(shí)驗(yàn)的優(yōu)化條件與ChIP實(shí)驗(yàn)不太相同(如復(fù)合物不需要固定,RIP反應(yīng)體系中的試劑和抗體絕對不能含有RNA酶,抗體需經(jīng)RIP實(shí)驗(yàn)驗(yàn)證等等)。RIP技術(shù)下游結(jié)合microarray技術(shù)被稱為RIP-Chip,幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化。

什么是CLIP-seq

CLIP-seq,又稱為HITS-CLIP,即紫外交聯(lián)免疫沉淀結(jié)合高通量測序(crosslinking-immunprecipitation and high-throughput sequencing), 是一項(xiàng)在全基因組水平揭示RNA分子與RNA結(jié)合蛋白相互作用的革命性技術(shù)。其主要原理是基于RNA分子與RNA結(jié)合蛋白在紫外照射下發(fā)生耦聯(lián),以RNA結(jié)合蛋白的特異性抗體將RNA-蛋白質(zhì)復(fù)合體沉淀之后,回收其中的RNA片段,經(jīng)添加接頭、RT-PCR等步驟,對這些分子進(jìn)行高通量測序,再經(jīng)生物信息學(xué)的分析和處理、總結(jié),挖掘出其特定規(guī)律,從而深入揭示RNA結(jié)合蛋白與RNA分子的調(diào)控作用及其對生命的意義。

什么是metagenomic(宏基因組)

Magenomics研究的對象是整個(gè)微生物群落。相對于傳統(tǒng)單個(gè)細(xì)菌研究來說,它具有眾多優(yōu)勢,其中很重要的兩點(diǎn):(1) 微生物通常是以群落方式共生于某一小生境中,它們的很多特性是基于整個(gè)群落環(huán)境及個(gè)體間的相互影響的,因此做Metagenomics研究比做單個(gè)個(gè)體的研究更能發(fā)現(xiàn)其特性;(2) Metagenomics研究無需分離單個(gè)細(xì)菌,可以研究那些不能被實(shí)驗(yàn)室分離培養(yǎng)的微生物。

宏基因組是基因組學(xué)一個(gè)新興的科學(xué)研究方向。宏基因組學(xué)(又稱元基因組學(xué),環(huán)境基因組學(xué),生態(tài)基因組學(xué)等),是研究直接從環(huán)境樣本中提取的基因組遺傳物質(zhì)的學(xué)科。傳統(tǒng)的微生物研究依賴于實(shí)驗(yàn)室培養(yǎng),元基因組的興起填補(bǔ)了無法在傳統(tǒng)實(shí)驗(yàn)室中培養(yǎng)的微生物研究的空白。過去幾年中,DNA測序技術(shù)的進(jìn)步以及測序通量和分析方法的改進(jìn)使得人們得以一窺這一未知的基因組科學(xué)領(lǐng)域。

什么是SNP、SNV(單核苷酸位點(diǎn)變異)

單核苷酸多態(tài)性singlenucleotide polymorphism,SNP 或單核苷酸位點(diǎn)變異SNV。個(gè)體間基因組DNA序列同一位置單個(gè)核苷酸變異(替代、插入或缺失)所引起的多態(tài)性。不同物種、個(gè)體基因組DNA序列同一位置上的單個(gè)核苷酸存在差別的現(xiàn)象。有這種差別的基因座、DNA序列等可作為基因組作圖的標(biāo)志。人基因組上平均約每1000個(gè)核苷酸即可能出現(xiàn)1個(gè)單核苷酸多態(tài)性的變化,其中有些單核苷酸多態(tài)性可能與疾病有關(guān),但可能大多數(shù)與疾病無關(guān)。單核苷酸多態(tài)性是研究人類家族和動植物品系遺傳變異的重要依據(jù)。在研究癌癥基因組變異時(shí),相對于正常組織,癌癥中特異的單核苷酸變異是一種體細(xì)胞突變(somatic mutation),稱做SNV。

什么是INDEL (基因組小片段插入)

基因組上小片段(>50bp)的插入或缺失,形同SNP/SNV。

什么是copy number variation (CNV):基因組拷貝數(shù)變異

基因組拷貝數(shù)變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。例如人類正常染色體拷貝數(shù)是2,有些染色體區(qū)域拷貝數(shù)變成1或3,這樣,該區(qū)域發(fā)生拷貝數(shù)缺失或增加,位于該區(qū)域內(nèi)的基因表達(dá)量也會受到影響。如果把一條染色體分成A-B-C-D四個(gè)區(qū)域,則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發(fā)生了C區(qū)域的擴(kuò)增及缺失,擴(kuò)增的位置可以是連續(xù)擴(kuò)增如A-B-C-C-D也可以是在其他位置的擴(kuò)增,如A-C-B-C-D。

什么是structure variation (SV):基因組結(jié)構(gòu)變異

染色體結(jié)構(gòu)變異是指在染色體上發(fā)生了大片段的變異。主要包括染色體大片段的插入和缺失(引起CNV的變化),染色體內(nèi)部的某塊區(qū)域發(fā)生翻轉(zhuǎn)顛換,兩條染色體之間發(fā)生重組(inter-chromosome trans-location)等。一般SV的展示利用Circos 軟件。

什么是Segment duplication

一般稱為SD區(qū)域,串聯(lián)重復(fù)是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復(fù)在人類基因多樣性的靈長類基因中發(fā)揮重要作用。在人類染色體Y和22號染色體上,有很大的SD序列。

什么是genotype and phenotype

既基因型與表型;一般指某些單核苷酸位點(diǎn)變異與表現(xiàn)形式間的關(guān)系。

什么 Read Contig Unigene



高通量測序時(shí),在芯片上的每個(gè)反應(yīng),會讀出一條序列,是比較短的,叫read,它們是原始數(shù)據(jù); 有很多reads通過片段重疊,能夠組裝成一個(gè)更大的片段,稱為contig; 多個(gè)contigs通過片段重疊,組成一個(gè)更長的scaffold; 一個(gè)contig被組成出來之后,鑒定發(fā)現(xiàn)它是編碼蛋白質(zhì)的基因,就叫singleton; 多個(gè)contigs組裝成scaffold之后,鑒定發(fā)現(xiàn)它編碼蛋白質(zhì)的基因,叫unigene。

一個(gè)UniGene不一定代表一個(gè)contig,一個(gè)UniGene可有多個(gè)contig。

UniGene (Unique Gene Sequence Collection)

UniGene是以自動化的方式,對于每一個(gè)新進(jìn)入到GeneBank的序列,進(jìn)行序列相似性分析,如果可以找到可能是來自于同一個(gè)基因的基因組(cluster),則將次序列歸入到這一個(gè)基因組,如果找不到,則成立一個(gè)新的基因組。據(jù)估計(jì),人類的基因約有八萬到十萬個(gè)左右,而在UniGenes中的所有人類序列中,經(jīng)過上述方式加以分組之后,在1998您6月,已得到的超過四萬三千個(gè)獨(dú)特的基因組(unique gene clusters),其中大約六千余個(gè)具有已知的基因。



什么是soft-clipped reads

當(dāng)基因組發(fā)生某一段的缺失,或轉(zhuǎn)錄組的剪接,在測序過程中,橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads回帖到基因組時(shí),一條reads被切成兩段,匹配到不同的區(qū)域,這樣的reads叫做soft-clipped reads,這些reads對于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用。

什么是multi-hits reads

由于大部分測序得到的reads較短,一個(gè)reads能夠匹配到基因組多個(gè)位置,無法區(qū)分其真實(shí)來源的位置。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類reads分配給reads較多的區(qū)域。




什么是Scaffold

基因組de novo測序,通過reads拼接獲得Contigs后,往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列?;谶@些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。

什么是Contig N50

Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個(gè)Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序,如獲得Contig 1,Contig 2,Contig 3...………Contig 25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Contig總長度的一半時(shí),最后一個(gè)加上的Contig長度即為Contig N50。舉例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig總長度*1/2時(shí),Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

什么是Scaffold N50

Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個(gè)Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序,如獲得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。將Scaffold按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí),最后一個(gè)加上的Scaffold長度即為Scaffold N50。舉例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時(shí),Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。

什么是測序深度和覆蓋度

測序深度(Sequencing Depth):測序得到的堿基總量(bp)與基因組大小(Genome)的比值,它是評價(jià)測序量的指標(biāo)之一。測序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系,測序帶來的錯(cuò)誤率或假陽性結(jié)果會隨著測序深度的提升而下降。重測序的個(gè)體,如果采用的是雙末端或Mate-Pair方案,當(dāng)測序深度在10~15X以上時(shí),基因組覆蓋度和測序錯(cuò)誤率控制均得以保證。

假設(shè)一個(gè)基因大小為2M,測序深度為10X,那么獲得的總數(shù)據(jù)量為20M。覆蓋度是指測序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測序獲得的。


denovo字面意思是全新,專業(yè)一點(diǎn)就是從頭測序。詳細(xì)點(diǎn)就是對未知基因組序列進(jìn)行測序,利用生物信息學(xué)分析手段,對序列進(jìn)行拼接、組裝,從而獲得其基因組的圖譜。測序的覆蓋度(coverage)和測序的深度(depth)。對于coverage,由于大片段拼接的gap(空白或者缺口)、測序讀長有限、重復(fù)序列等問題的存在,測序分析后組裝得到的基因組序列通常無法完全覆蓋所有區(qū)域,覆蓋度就是最終得到的結(jié)果占整個(gè)基因組的比例。例如一個(gè)人的基因組測序,覆蓋度為98.5%,那么說明該基因組還有1.5%的區(qū)域通過我們的組裝和分析無法得到;對于depth,就是被測基因組上單個(gè)堿基被測序的平均次數(shù),比如某樣本的測序深度為30X,那么就是說該樣本的基因組上每一個(gè)單堿基平均被測序(或者說讀?。┝?0次,注意,是平均。當(dāng)然了,depth也有最大和最小值,這個(gè)都可以由信息分析得到。其實(shí)也就是為了提高準(zhǔn)確率什么的,一般15X就差不多了。

什么是DeBruijn圖

Kautz和DeBruijn圖由于其在大型計(jì)算機(jī)互聯(lián)網(wǎng)上的應(yīng)用而被人們廣泛的研究,互聯(lián)網(wǎng)的一個(gè)重要的參數(shù)是它的等周數(shù).Deplormc和TiⅡich運(yùn)用特征值技術(shù)發(fā)現(xiàn)了Kautz和De-Bruijn圖等周數(shù)的一個(gè)上界.Buherman給出了一個(gè)構(gòu)造性的方法改進(jìn)了DeBruijn圖等周數(shù)的上).我們運(yùn)用該構(gòu)造方法得到了Kautz圖的一個(gè)新的上界.



什么是RPKM、FPKM

RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百萬個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。是將map到基因的read數(shù)除以map到genome的所有read數(shù)(以million為單位)與RNA的長度(以KB為單位)。

RNA-seq是透過次世代定序的技術(shù)來偵測基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長的基因被抽到的機(jī)率本來就會比序列短的基因較高,如此一來,序列長的基因永遠(yuǎn)會被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以Ali Mortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量



舉例:比如對應(yīng)到該基因的read有1000個(gè),總reads個(gè)數(shù)有100萬,而該基因的外顯子總長為5kb,那么它的RPKM為:10^9*1000(reads個(gè)數(shù))/10^6(總reads個(gè)數(shù))*5000(外顯子長度)=200或者:1000(reads個(gè)數(shù))/1(百萬)*5(K)=200這個(gè)值反映基因的表達(dá)水平。

FPKM(fragments per kilobase of exon per million fragments mapped).每1百萬個(gè)map上j的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。 FPKM與RPKM計(jì)算方法基本一致。不同點(diǎn)就是FPKM計(jì)算的是fragments,而RPKM計(jì)算的是reads。Fragment比read的含義更廣,因此FPKM包含的意義也更廣,可以是pair-end的一個(gè)fragment,也可以是一個(gè)read。


什么是轉(zhuǎn)錄本重構(gòu)

用測序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式:1,de-novo構(gòu)建; 2,有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個(gè)更長的序列,經(jīng)過不斷的延伸,拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構(gòu),是指先將read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、cufflinks。

什么是genefusion

將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。

什么是表達(dá)譜

基因表達(dá)譜(geneexpression profile):指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜

什么是功能基因組學(xué)

功能基因組學(xué)(Functuionalgenomics)又往往被稱為后基因組學(xué)(Postgenomics),它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物,發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段,通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學(xué)研究從對單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對基因組動態(tài)的生物學(xué)功能學(xué)研究。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測?;虻墓δ馨ǎ荷飳W(xué)功能,如作為蛋白質(zhì)激酶對特異蛋白質(zhì)進(jìn)行磷酸化修飾;細(xì)胞學(xué)功能,如參與細(xì)胞間和細(xì)胞內(nèi)信號傳遞途徑;發(fā)育上功能,如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術(shù)不能對基因進(jìn)行全面系統(tǒng)的分析,新的技術(shù)應(yīng)運(yùn)而生,包括基因表達(dá)的系統(tǒng)分析(serial analysis of gene expression,SAGE),cDNA微陣列(cDNA microarray),DNA 芯片(DNA chip)和序列標(biāo)志片段顯示(sequence tagged fragmentsdisplay。

什么是比較基因組學(xué)

比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測序基礎(chǔ)上,對已知的基因和基因組結(jié)構(gòu)進(jìn)行比較,來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機(jī)制,闡明物種進(jìn)化關(guān)系,及基因組的內(nèi)在結(jié)構(gòu)。

什么是表觀遺傳學(xué)

表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下,基因表達(dá)了可遺傳的變化的一門遺傳學(xué)分支學(xué)科。表觀遺傳的現(xiàn)象很多,已知的有DNA甲基化(DNAmethylation),基因組印記(genomicimpriting),母體效應(yīng)(maternaleffects),基因沉默(genesilencing),核仁顯性,休眠轉(zhuǎn)座子激活和RNA編輯(RNA editing)等。

什么是計(jì)算生物學(xué)

計(jì)算生物學(xué)是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等。當(dāng)前,生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長,每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會翻一番,單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付。因此,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)。

什么是基因組印記

基因組印記(又稱遺傳印記)是指基因根據(jù)親代的不同而有不同的表達(dá)。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)。基因組印記是一正常過程,此現(xiàn)象在一些低等動物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù),可能不超過5%,但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用?;蚪M印記病主要表現(xiàn)為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見的遺傳學(xué)因素之一。

什么是基因組學(xué)

基因組學(xué)(英文genomics),研究生物基因組和如何利用基因的一門學(xué)問。用于概括涉及基因作圖、測序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用,試圖解決生物,醫(yī)學(xué),和工業(yè)領(lǐng)域的重大問題。

什么是DNA甲基化

CpG島,英文名稱:CpG island

定義:位于多種脊椎動物已知基因轉(zhuǎn)錄起始位點(diǎn)周圍、由胞嘧啶(C)和鳥嘧啶(G)組成的串聯(lián)重復(fù)序列。

CpG島(CpG island):CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作CpG島

DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5'碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。正常情況下,人類基因組“垃圾”序列的CpG二核苷酸相對稀少,并且總是處于甲基化狀態(tài),與之相反,人類基因組中大小為100—1000 bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài),并且與56%的人類基因組編碼基因相關(guān)。人類基因組序列草圖分析結(jié)果表明,人類基因組CpG島約為28890個(gè),大部分染色體每1 Mb就有5—15個(gè)CpG島,平均值為每Mb含10.5個(gè)CpG島,CpG島的數(shù)目與基因密度有良好的對應(yīng)關(guān)系[9]。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題,DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。

什么是基因組注釋

基因組注釋(Genomeannotation) 是利用生物信息學(xué)方法和工具,對基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)?;蚪M注釋的研究內(nèi)容包括基因識別和基因功能注釋兩個(gè)方面?;蜃R別的核心是確定全基因組序列中所有基因的確切位置。

以上轉(zhuǎn)自http://www.plob.org/2012/11/21/4810.html,稍加修改。

no-redudant protein(非冗余蛋白質(zhì))

像ncbi里邊,因?yàn)椴扇〉脑瓌t是100%identical的才merge到一起去,所以它的database里邊那種nr nucleotide/protein,其實(shí)有很多都是REDUNDANT的,需要你自己manually curate.http://arep.med.harvard.edu/seqanal/db.html

E-value


EXPECT

E期望值(E-value)這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一alignment結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,alignment結(jié)果越顯著。你可能會想為搜索設(shè)定一個(gè)期望值閥值(EXPECT),例如Defaults值設(shè)為10。這一設(shè)置則表示聯(lián)配結(jié)果中將有10個(gè)匹配序列是由隨機(jī)產(chǎn)生,如果聯(lián)配的統(tǒng)計(jì)顯著性值(E值)小于該值(10),則該alignment將被檢出,換句話說,比較低的閥值將使搜索的匹配要求更嚴(yán)格,結(jié)果報(bào)告中隨機(jī)產(chǎn)生的匹配序列減少。

E=kmne^(-λs)

RNA Integrity Number (RIN)

The RNA integrity number (RIN) is a software tool designed to help scientists estimate the integrity of total RNA samples


TRS、DRS、SSR

根據(jù)重復(fù)序列在基因組中的分布形式可將其分為串聯(lián)重復(fù)序列(Tandem Repeats Sequence,TRS)和散布重復(fù)序列(Dispersed Repeats Sequence,DRS)。其中,串聯(lián)重復(fù)序列是由相關(guān)的重復(fù)單位首尾相連、成串排列而成的。發(fā)現(xiàn)的串聯(lián)重復(fù)序列主要有兩類:一類是由功能基因組成的(如rRNA和組蛋白基因);另一類是由無功能的序列組成的。

根據(jù)重復(fù)序列的重復(fù)單位的長度,可將串聯(lián)重復(fù)序列分為衛(wèi)星DNA、微衛(wèi)星DNA、小衛(wèi)星 DNA等。微衛(wèi)星DNA又叫簡單重復(fù)序列(Simple Sequence Repeat,SSR),指的是基因組中由1-6個(gè)核苷酸組成的基本單位重復(fù)多次構(gòu)成的一段DNA,廣泛分布于基因組的不同位置,長度一般在200 bp以下。

簡單重復(fù)序(SSR)也稱微衛(wèi)星DNA,其串聯(lián)重復(fù)的核心序列為1一6 bp,其中最常見是雙核苷酸重復(fù),即(CA) n和(TG) n每個(gè)微衛(wèi)星DNA的核心序列結(jié)構(gòu)相同,重復(fù)單位數(shù)目10一60個(gè),其高度多態(tài)性主要來源于串聯(lián)數(shù)目的不同。

根據(jù)SSR核心序列排列方式的不同,可分為3種類型:

完全型(perfect)。指核心序列以不間斷的重復(fù)方式首尾相連構(gòu)成的DNA。如: ATATATATATATATATATATATATATATATATAT

不完全型(imperfect)。指在SSR的核心序列之間有3個(gè)以下的非重復(fù)堿基,但兩端的連續(xù)重復(fù)核心序列重復(fù)數(shù)大于3。如:ATATATATGGATATATATATCGATATATATATATATATGGATATATATAT

復(fù)合型(compound)。指2個(gè)或2個(gè)以上的串聯(lián)核心序列由3個(gè)或3個(gè)以上的連續(xù)的非重復(fù)堿基分隔開,但這種連續(xù)性的核心序列重復(fù)數(shù)不少于5。如:ATATATATATATATGGGATATATATATATA

3種類型中完全型是SSR標(biāo)記中應(yīng)用較多的一種類型。

Domain保守域 Conserved structural entities with distinctive secondary structure content and an hydrophobic core. In small disulphide-rich and Zn2+-binding or Ca2+- binding domains the hydrophobic core may be provided by cystines and metal ions, respectively. Homologous domains with common functions usually show sequence similarities.

結(jié)構(gòu)域(structure domain)是在蛋白質(zhì)三級結(jié)構(gòu)中介于二級和三級結(jié)構(gòu)之間的可以明顯區(qū)分但又相對獨(dú)立的折疊單元,每個(gè)結(jié)構(gòu)域自身形成緊實(shí)的三維結(jié)構(gòu),可以獨(dú)立存在或折疊,但結(jié)構(gòu)域與結(jié)構(gòu)域之間關(guān)系較為松散。

結(jié)構(gòu)功能域通常由25~300個(gè)氨基酸殘基組成,不同蛋白質(zhì)分子中結(jié)構(gòu)域的數(shù)目不同,同一個(gè)蛋白質(zhì)分子中的幾個(gè)結(jié)構(gòu)域彼此相似或者不盡相同。結(jié)構(gòu)域是蛋白質(zhì)的功能、結(jié)構(gòu)和進(jìn)化單位,結(jié)構(gòu)功能域分析對于蛋白質(zhì)結(jié)構(gòu)的分類和預(yù)測有著重要的作用。

Bits scores Alignment scores are reported by HMMer and BLAST as bits scores. The likelihood that the query sequence is a bona fide homologue of the database sequence is compared to the likelihood that the sequence was instead generated by a “random” model. Taking the logarithm (to base 2) of this likelihood ratio gives the bits score. P-value This represents a probability that, given a database of a particular size, random sequences score higher than a value X. P-values are generated by the BLAST algorithm that has been integrated into SMART. E-value This represents the number of sequences with a score greater-than, or equal to, X, expected absolutely by chance. The E-value connects the score (“X”) of an alignment between a user-supplied sequence and a database sequence, generated by any algorithm, with how many alignments with similar or greater scores that would be expected from a search of a random sequence database of equivalent size. Since version 2.0 E-values are calculated using Hidden Markov Models, leading to more accurate estimates than before. Motif模體 Sequence motifs are short conserved regions of polypeptides. Sets of sequence motifs need not necessarily represent homologues.

motif又稱模體,是序列中局部的保守區(qū)域,或者是一組序列中共有的一小段序列模式。一般指構(gòu)成任何一種特征序列的基本結(jié)構(gòu),但是多數(shù)情況下是指可能具有分子功能、結(jié)構(gòu)性質(zhì)或家族成員相關(guān)的任何序列模式。

motif作為結(jié)構(gòu)域中的亞單位,表現(xiàn)結(jié)構(gòu)域的各種生物學(xué)功能。常見的蛋白質(zhì)結(jié)構(gòu)motif,種類超過28類。常見的motif搜索方法主要基于兩種,一種是序列模式(Pattern),另外一種是序列特征譜(Profile)。

Pattern 序列模式方法直接搜索關(guān)鍵的幾個(gè)保守殘基,忽略其他位置的氨基酸多態(tài)性。例如,“L-x(6)-L-x(6)-L-x(6)-L”(x表示任意氨基酸)為亮氨酸拉鏈結(jié)構(gòu)的序列模式,這樣一段序列多處于蛋白質(zhì)的活性區(qū)域或重要結(jié)構(gòu)區(qū),較為保守,是motif搜索的目標(biāo)之一。由于序列模式方法搜索的不是完整的結(jié)構(gòu)域或整個(gè)蛋白的特征,故其適用于識別保守的功能區(qū)域,對于序列變異大的功能區(qū)域,則無法準(zhǔn)確識別。此外,隨機(jī)的氨基酸序列也可能出現(xiàn)短小的序列模式,故易產(chǎn)生假陽性,對于此類搜索需要搜索多個(gè)不同的數(shù)據(jù)庫,得到盡可能多得同源序列,從而才能更好的說明序列中包含的信息。 Profile A pro file is a table of position-specific scores and gap penalties, representing an homologous family, that may be used to search sequence databases (Ref.: [1] , [2] , [3] ).
In CLUSTAL-W-derived profiles those sequences that are more distantly related are assigned higher weights (
[4] , [5] , [6] ). Issues in pro file-based database searching are discussed in Bork & Gibson (1996) [7] . 序列特征譜搜索是基于蛋白質(zhì)序列多重比對結(jié)果中的保守序列區(qū)域進(jìn)行搜索,由于考慮了不同保守度的氨基酸在相應(yīng)位置的權(quán)重,可以更為敏感的檢測到進(jìn)化距離較遠(yuǎn)的蛋白質(zhì)相關(guān)性,得到比序列模式方法更為靈敏的結(jié)果,但可靠的序列特征譜數(shù)目往往有限,因此該方法在進(jìn)行新基因功能預(yù)測時(shí)受到了較大的障礙。 Alignment 多重比對,序列比較Representation of a prediction of the amino acids in tertiary structures of homologues that overlay in three dimensions.



生物信息學(xué)名詞解釋的評論 (共 條)

分享到微博請遵守國家法律
吴桥县| 河南省| 沭阳县| 来凤县| 石嘴山市| 赣榆县| 达州市| 陆川县| 商都县| 丁青县| 台前县| 连州市| 醴陵市| 密山市| 蓬溪县| 寻乌县| 安远县| 兴山县| 油尖旺区| 福贡县| 博爱县| 河东区| 湘潭县| 建平县| 防城港市| 安庆市| 温泉县| 上犹县| 苍南县| 巩留县| 平泉县| 宿州市| 安仁县| 南涧| 江都市| 江华| 徐水县| 清流县| 东方市| 乌兰县| 绿春县|