Trimmomatic對下機數(shù)據(jù)進行質(zhì)控
要對下機數(shù)據(jù)做質(zhì)控,去接頭,去除低質(zhì)量堿基序列,之前總是用trimmomatic,發(fā)現(xiàn)學校服務器上沒有這個軟件,只好再重新下載、安裝,重新學習一下當時用的參數(shù)都是啥意思,能不能再優(yōu)化一下。
附:實驗室老師用的是另一款質(zhì)控、剪切一條龍的軟件fastp,查了一下fastp, 優(yōu)點蠻多的,鑒于時間比較緊張,先不比較兩者對結(jié)果的影響了。
一、軟件下載及安裝
? 下載地址
? ? ?http://www.usadellab.org/cms/index.php?page=trimmomatic
? ? ?unzip解壓完后就能用了
二、軟件運行
? ? ?Trimmomatic是一個Java程序,需要java運行,先上我的腳本:

因為我是批處理,fastq_List.txt文件中按行(一行一個reads的.fq.gz文件)存儲著我需要處理的序列名字,比如sample1_R1.fq.gz,下一行為sample1_R2.fq.gz。
常用參數(shù):
PE: 雙端測序
-threads 線程數(shù),最大是CPU核數(shù);
-Phred33 設(shè)置堿基的質(zhì)量格式,使用phred + 33或phred + 64質(zhì)量分數(shù),這取決于使用的Illumina管道,默認-phred64,自v0.32版本之后可自動識別是phred33還是phred64;
-trimlog 生成日志名,建議不開這個參數(shù),生成的log文件巨大且大多數(shù)情況下,你是不會看的;
-basein 指定輸入路徑及文件,需要R1和R2在同一目錄下,且命名一樣;
-baseout? 指定輸出路徑及文件,結(jié)果命名會一樣;
以下參數(shù)很重要,需要根據(jù)自己情況進行設(shè)定:
ILLUMINACLIP: 從reads中剪切adapter和其他Illumina特定序列,按照你的數(shù)據(jù)選擇接頭文件列表,TruSeq3對應HiSeq和MiSeq。
TruSeq2 (as used inGAII machines)
TruSeq3 (as used byHiSeq and MiSeq machines),
這里需要注意一下ILLUMINACLIP的位置,由于版本,平臺等問題,接頭文件的位置不一定相同,最好用Everything這個軟件找一下,填上正確的文件路徑。
SLIDINGWINDOW:執(zhí)行滑動窗口修剪,一旦窗口內(nèi)的平均質(zhì)量低于閾值,則切割。
<windowSize>:<requiredQuality>,對應兩個參數(shù)窗口大?。▔A基數(shù))和對應堿基序列的質(zhì)量。一般就是4和15,除非數(shù)據(jù)質(zhì)量實在是很差時需要自己再去調(diào)整。
LEADING:如果低于閾值質(zhì)量,則在reads起始處剪切堿基,因為機器對初始幾個序列檢測不太準,一般默認依次把質(zhì)量低于3的堿基切掉;
TRAILING:如果低于閾值質(zhì)量,則在reads末尾處剪切堿基,不過沒必要。尤其是當你數(shù)據(jù)是雙端測序結(jié)果的時候(我設(shè)置了,影響不大,之前幾批數(shù)據(jù)都設(shè)置了,為了保持一致,這次也懶的刪了,算上這次,這是第三次安裝這個軟件了,這次才注意到這個問題,慚愧)
CROP:將reads從末尾切割為指定長度,也就是直接從中間切斷丟棄尾部序列,慎用;
HEADCROP:從reads剪切后低于指定長度,切掉頭部對應堿基數(shù)并丟棄,同樣,慎用;
MINLEN:如果reads低于指定長度,則刪除
三、結(jié)果
PE 模式的兩個輸入文件,四個輸出文件:
sample_paired_R1.clean.fastq????
sample_unpaired_R1.clean.fastq
sample_paired_R1.clean.fastq????
sample_unpaired_R1.clean.fastq
本文使用 文章同步助手 同步