最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

常見生信數(shù)據(jù)格式介紹

2022-11-01 20:42 作者:生信小院  | 我要投稿


多組學(xué)分析已逐漸成為當(dāng)今涉及生物方向相關(guān)研究的利器,它可以被用來幫助人們發(fā)現(xiàn)和解決常規(guī)分子生物學(xué)手段無法發(fā)現(xiàn)和解決的問題。也正是因為這一分析手段的重要和相關(guān)數(shù)據(jù)無法被部分生信小白快速高效的解讀這兩方面問題,催生出大量的測序分析公司。然而,這些公司的出現(xiàn)雖然可以解決這一‘痛點’,卻也會導(dǎo)致許多生信小白對于多組學(xué)分析‘知其然,不知其所以然’。比如,針對生信分析過程中的各種數(shù)據(jù)格式,作為依靠公司進行多組學(xué)分析的生信小白可能不會接觸到這些數(shù)據(jù),因而對這些數(shù)據(jù)格式也‘不明所以’??墒?,作為一個希望從事深入挖掘這些數(shù)據(jù)的生信分析人員,如果僅僅以公司的標(biāo)準(zhǔn)分析結(jié)果作為依據(jù),則可能錯失數(shù)據(jù)中的許多亮點,因此,本文以轉(zhuǎn)錄組測序中涉及到的一些測序數(shù)據(jù)格式為例,如fasta、fastq、gtf/gff和sam/bam,對這些數(shù)據(jù)格式進行解讀,希望能夠加深生信小白對多組學(xué)分析中數(shù)據(jù)格式的了解,從而能夠在組學(xué)數(shù)據(jù)中發(fā)掘更多的亮點。

一、fasta格式

fasta格式是由William Raymond Pearson和David J. Lipman發(fā)明的,用于表示核苷酸或蛋白質(zhì)序列信息的一種最基本的格式。其文件中可以包含一條或多條序列。首列以‘>’開頭,后跟上序列名,隨后的每一列均為該序列名所含有的堿基序列,直到遇到以‘>’開頭下一列。其文件格式如下:

二、fastq格式

與fasta格式不同,fastq格式除含有序列信息外,還會涉及到更多的信息。該格式文件的第一行以‘@’開始,后面所跟信息用于描述序列,并且該行在同一個文件中不會出現(xiàn)重復(fù)。第二行的內(nèi)容則是序列信息,是由A、T、C、G和N這五個字母所組成,其中N代表的是測序時哪些無法被識別出來的堿基。第三行則是以‘+’開頭,通常不添加任何信息。第四行包含的內(nèi)容是對序列的質(zhì)量評價,其每個字符對應(yīng)第二行序列的每個堿基的質(zhì)量的可靠程度,用ASCII碼表示?,F(xiàn)如今主流的測序公司為節(jié)省存儲資源,基本上使用的都是將fastq文件壓縮成fq.gz文件的形式分發(fā)給使用者。該文件格式如下:

三、gtf/gff文件

gtf的全名為gene transfer format,gff全名為general feature format,均是用來表示基因在基因組中信息的文件格式。這兩類文件都是由9列數(shù)據(jù)組成,其中前8列基本都是相同的。前8列相同的數(shù)據(jù)分別代表:reference sequence name(通常是序列染色體的ID,)、annotation source(基因的來源)、feature type(代表該區(qū)間對應(yīng)的特征類型,包括5'UTR、3'UTR、exon、CDS、start_codon、stop_codon)、start coordinate(代表區(qū)間的起始位置)、end coordinate(代表區(qū)間的終止位置)、score(代表該區(qū)間的得分)、strand(代表正負鏈的信息)、frame(僅對CDS有效,需要指定翻譯開始的位置,取值范圍有0,1,2三種,分別表示該編碼框的第一個密碼子第一個堿基位于其5'末端,該編碼框的第一個密碼子的第一個堿基位于該編碼區(qū)外和該編碼框的第一個密碼子的第一、二個堿基位于該編碼區(qū)外)、attributes(代表屬性,在本文gff文件中則表明該CDS屬于gene1,而在gtf中則表明該cds所屬的轉(zhuǎn)錄本,基因ID和基因名稱)。

其中本推文中g(shù)ff的文件格式為:

本推文中g(shù)tf的文件格式為:

五、sam/bam文件

對于序列比對而言,如何將所有的比對結(jié)果統(tǒng)一表示比對結(jié)果是一個非常重要的問題。因此,由sanger制定,是以TAB為分割符的文本格式就被制定成為標(biāo)準(zhǔn)。這其中又以sam/bam文件格式為主要代表。sam是一種序列比對格式標(biāo)準(zhǔn),主要應(yīng)用于測序序列mapping到基因組上的結(jié)果表示,當(dāng)然也可以表示任意的多重比對結(jié)果。而bam文件則是sam文件的二進制文件,用于壓縮sam文件的內(nèi)容。兩者的內(nèi)容完全一樣,只是bam文件無法用常規(guī)的文本編輯器查看,需要在linux操作系統(tǒng)下使用“samtool view –h *.bam”命令去查看。以本推文為例,其中前三行都是@開頭的注釋信息,可以忽略。從第四行開始為比對結(jié)果的正文。下面將以列的順序依次進行介紹:

1.?第一列為序列名稱(QNAME),用來表示查詢序列即測序短片段(reads)的名稱。

2.?第二列為標(biāo)志(FLAG),以整數(shù)來表示比對的結(jié)果。

不同數(shù)值有不同的意義,數(shù)值也可以是下列數(shù)的組合;比如如果FLAG是4的話則表示該reads沒有比對到參考序列上,flag為16表示single-end reads比對到參考序列的反鏈上,flag為83(64+16+2+1)表示paired-end reads中的第一個reads比對到參考序列上了。如果想要詳細了解這個FLAG的含義,詳見https://github.com/samtools/hts-specs/blob/master/SAMv1.pdf。

3.?第三列為序列比對上的參考序列的名稱(RNAME),比如基因組的染色體編號等,如果沒有比對上則顯示為*;如本文的數(shù)據(jù)則顯示這個數(shù)據(jù)沒有比對上。

4.?第四列表示比對的起始位置(POS),以1開始計數(shù),如果沒有比對上則顯示為0;

5.?第五列表示比對質(zhì)量(MAPQ)。這個數(shù)值越高,表明該reads比對到參考序列上相應(yīng)序列的相似性越高。

6.?第六列為CIGAR(CompactIdiosyncratic Gapped Alignment Report)字符串,即簡要比對信息表達式。其以參考序列為基礎(chǔ),使用數(shù)字加字母表示比對結(jié)果,比如 3M4S2P4M1I,這個字符串表示的結(jié)果依次為:3個堿基匹配上,4個堿基被剪切,打開了包含2個缺口,4個堿基重新匹配上,1個堿基插入。而本文未比對上,所以“*”表示

7.?第七列(RNEXT)表示的是雙末端測序中第2條用來比對的reads名稱,如果沒有則用*表示,但是如果和前一個reads比對到同一個參考序列(基因)則用=表示;

模板中下一次讀取的主要比對的參考序列名稱。對于最后一次讀取,下一次讀取是模板中的第一次讀取。如果@SQ標(biāo)題行存在,RNEXT(如果 not'*'或'=')必須存在于SQ-SN標(biāo)簽之一中。當(dāng)信息不可用時,此字段設(shè)置為“*”,如果RNEXT與RNAME相同,則設(shè)置為“=”。如果不是'=',并且模板中的下一個讀取具有一個主映射(也參見FLAG中的位0x100),則該字段與下一次讀取的主行中的RNAME相同。如果RNEXT為'*',則無法對PNEXT和bit 0x20做出假設(shè)。

8.?第八列(PNEXT)為下一個reads比對到參考序列上的位置,如果沒有則用0表示;

模板中下一次讀取的主要對齊方式的基于1的位置。當(dāng)信息不可用時設(shè)置為0。該字段等于下一次讀取的主要行的POS。如果PNEXT為0,則無法對RNEXT和bit 0x20做出假設(shè)。

9.?第九列為TLEN(signedobserved Template LENgth)

TLEN的絕對值等于模板的映射末端與模板的映射起點之間的距離,包括(即結(jié)束??開始+1)。對于單個段模板或信息不可用時(例如,當(dāng)多段模板的第一個或最后一個段未映射或兩者映射到不同的參考序列時),將其設(shè)置為0。該字段的目的是指示模板的另一端已對齊的位置,而無需讀取SAM文件的其余部分。但是目前,對于該字段的定義并未達成共識,仍需要根據(jù)實施的方式進行闡述。該字段的計算方法較為復(fù)雜,建議參考官方文件進行進一步的了解。

10.第十列(SEQ)為reads的序列信息。

11.?第十一列(QUAL)為reads 的序列質(zhì)量信息,同F(xiàn)ASTQ。

12.在第十二列之后的字段則為可選字段。比如本文中則是YT:Z:UP

以上就是轉(zhuǎn)錄組測序中可能使用到的一些常規(guī)測序文件格式,了解這些數(shù)據(jù)格式可以加深我們對于測序原理的理解,幫助我們更好的分析數(shù)據(jù)。

注:本文封面圖片來源于“Gainingcomprehensive biological insight into the transcriptome by performing abroad-spectrum RNA-seq analysis”。

三 慣例小結(jié)


本公眾號開發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號在其他平臺的賬戶,也歡迎大家關(guān)注并多提意見。


簡書:WJ的生信小院


博客園:生信小院


最后,也歡迎各位大佬能夠在本平臺上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對某一科研領(lǐng)域的看法;3:想要達成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機會;5:博導(dǎo)提供博后工作或者博士攻讀機會,都可以后臺給筆者留言。希望本平臺在進行生信知識分享的同時,能夠成為生信分析者的交流平臺,能夠?qū)崿F(xiàn)相應(yīng)的利益互補和雙贏(不一定能實現(xiàn),但是夢想總得是有的吧)。



常見生信數(shù)據(jù)格式介紹的評論 (共 條)

分享到微博請遵守國家法律
咸阳市| 同江市| 潮州市| 洛宁县| 永康市| 佛学| 栖霞市| 武威市| 伊宁市| 唐河县| 兴业县| 襄樊市| 宁德市| 涿州市| 南投市| 新乡县| 农安县| 皮山县| 广元市| 岳阳县| 西乌| 郁南县| 舟山市| 乌拉特前旗| 乌审旗| 米脂县| 巨野县| 周宁县| 昭苏县| 张家口市| 理塘县| 安泽县| 资中县| 阳曲县| 罗田县| 湘西| 巢湖市| 腾冲县| 甘洛县| 博客| 灵山县|