FASTA & FASTQ 格式
FASTA
又稱Pearson格式,主要發(fā)明人是威廉·皮爾森(William Raymond Pearson)和戴維德.李普曼(David J. Lipman)。
一個文件可儲存一條或多條序列信息。
每條序列信息包括兩部分:
①序列描述header,即該序列的身份信息identifiers,僅有一行,以>開頭;
②序列組成。

FASTQ
一般用于表示測序結果。測序必有誤差,因此fastq相較于fasta文件引入了序列信息的準確性。
每條序列有4行:
第一行等同于fasta的header,以@開頭;
第二行為測序結果的序列信息;
第三行一般只有一個加號+,有時也會包含一些描述內容;
第四行是與第二行對應的測序質量信息,即每個測序堿基結果的準確性。
雙端測序一般儲存在兩個fastq文件中。

Phred Quality
堿基測序質量(Base call quality)用錯誤率(error probability,e或P)表示(如e=0.001表示,平均1000次測序中有一個堿基為錯誤結果)。
e一般較小,為表示方便會進行換算:
①首先進行對數(shù)轉換, Q = -10 x lg(e);
②再進行ASCII值轉換,通常將 Q值+33 后再轉換為對應的ASCII碼,即fastq格式第四行的測序質量結果。

標簽: