最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

2023.1.1 宏基因組學(xué)習(xí)之?dāng)?shù)據(jù)質(zhì)控

2023-01-01 14:33 作者:熊蘭莽原  | 我要投稿

一.過濾宿主

軟件以bowtie2為例

(1) 構(gòu)建索引

命令行:

bowtie2-build host.fa(宿主基因組序列)?host.fa(為索引路徑或者說是索引前綴)

(1) bowtie2 比對過濾

命令行:

bowtie2 --seed 123456 -I 200 -X 1000 --phred33 --threads 4 -x host.fa -1 sample_paired_clean_1.fastq -2 sample_paired_clean_2.fastq?--un-conc sample_filter_reference.fq -S aln.sam

參數(shù)解析:

-I/--minins <int> 設(shè)定最小的插入片段長度. Default: 0.

-X/--maxins <int> 設(shè)定最長的插入片段長度. Default: 500

--phred33 序列質(zhì)量數(shù)據(jù)為 phred32 體系

--phred64: 序列質(zhì)量數(shù)據(jù)為 phred64 體系

-x <bt2-idx> 由 bowtie2-build 所生成的索引文件的前綴。

-1 <m1> 雙末端測尋對應(yīng)的文件 1??梢詾槎鄠€(gè)文件,并用逗號(hào)分開;多個(gè)文

件必須和 -2 <m2> 中制定的文件一一對應(yīng)。比如:"-1 flyA_1.fq,flyB_1.fq -2

flyA_2.fq,flyB_2.fq". 測序文件中的 reads 的長度可以不一樣。

-2 <m2> 雙末端測尋對應(yīng)的文件 2.

--un-conc <path> 將不能和諧比對的 paired-end reads 寫入<path>

-S <hit> 所生成的 SAM 格式的文件前綴。默認(rèn)是輸入到標(biāo)準(zhǔn)輸出。

-U <r> 非雙末端測尋對應(yīng)的文件。可以為多個(gè)文件,并用逗號(hào)分開。測序文件

中的 reads 的長度可以不一樣。

--seed <int> 使用<int>作為隨機(jī)數(shù)產(chǎn)生的種子(不知道有什么用)?

訂閱偽隨機(jī)數(shù),隨機(jī)數(shù)種子seed

偽隨機(jī)數(shù),偽:假的,即假的隨機(jī)數(shù),說明并不是隨機(jī)的

1.?計(jì)算機(jī)的偽隨機(jī)數(shù)是由隨機(jī)種子根據(jù)一定的計(jì)算方法計(jì)算出來的數(shù)值。所以,只要計(jì)算方法一定,隨機(jī)種子一定,那么產(chǎn)生的隨機(jī)數(shù)就是固定的。

2.?只要用戶或第三方不設(shè)置隨機(jī)種子,那么在默認(rèn)情況下隨機(jī)種子來自系統(tǒng)時(shí)鐘。

百度百科

偽隨機(jī)數(shù)是用確定性的算法計(jì)算出來自[0,1]均勻分布的隨機(jī)數(shù)序列。并不真正的隨機(jī),但具有類似于隨機(jī)數(shù)的統(tǒng)計(jì)特征,如均勻性、獨(dú)立性等。在計(jì)算偽隨機(jī)數(shù)時(shí),若使用的初值(種子)不變,那么偽隨機(jī)數(shù)的數(shù)序也不變。偽隨機(jī)數(shù)可以用計(jì)算機(jī)大量生成,在模擬研究中為了提高模擬效率,一般采用偽隨機(jī)數(shù)代替真正的隨機(jī)數(shù)。模擬中使用的一般是循環(huán)周期極長并能通過隨機(jī)數(shù)檢驗(yàn)的偽隨機(jī)數(shù),以保證計(jì)算結(jié)果的隨機(jī)性。

輸出結(jié)果說明:

sample_filter_reference.1.fq:過濾掉宿主序列后的 reads1 端 fastq 序列

sample_filter_reference.2.fq:過濾掉宿主序列后的 reads2 端 fastq 序列

aln.sam:比對結(jié)果 sam 格式文件

?

二.數(shù)據(jù)質(zhì)控(以fastqc為例)

命令行:

fastqc -o outdir *.gz

參數(shù)解析:

-o --outdir 輸出目錄,需自己創(chuàng)建目錄

?

--(no)extract 是否解壓輸出文件,默認(rèn)是自動(dòng)解壓縮 zip 文件。加上–

noextract 不解壓文件。

?

-f 指定輸入文件的類型,支持 fastq|bam|sam 三種格式的文件,默認(rèn)自動(dòng)識(shí)

別。

?

-t --threads 選擇程序運(yùn)行的線程數(shù),即同時(shí)處理的文件數(shù)目。

?

-c --contaminants,污染物選項(xiàng),輸入的是一個(gè)文件,格式是 Name [Tab]

Sequence,里面是可能的污染序列,如果有這個(gè)選項(xiàng),F(xiàn)astQC 會(huì)在計(jì)算時(shí)候評估污染的情況,并在統(tǒng)計(jì)的時(shí)候進(jìn)行分析,一般用不到。

?

結(jié)果文件:

一個(gè)數(shù)據(jù)文件處理后會(huì)得到 2 個(gè)文件,一個(gè) html 格式文件和一個(gè) zip 的壓縮文 件,zip 解壓后和 html 格式文件內(nèi)容是一樣的,只需要下載 html 格式文件到本地,用瀏覽器打開查看。

?

結(jié)果展示:

FastqC 有 3 種結(jié)果:綠色代表 PASS;黃色代表 WARN;紅色代表 FAIL。當(dāng)出

現(xiàn)黃色時(shí)說明需要查看結(jié)果。


2023.1.1 宏基因組學(xué)習(xí)之?dāng)?shù)據(jù)質(zhì)控的評論 (共 條)

分享到微博請遵守國家法律
房山区| 铁力市| 会理县| 垫江县| 南宁市| 蒲城县| 五台县| 建宁县| 孙吴县| 闵行区| 旅游| 葵青区| 崇信县| 邛崃市| 永城市| 缙云县| 苗栗市| 巫溪县| 德令哈市| 大冶市| 出国| 扬中市| 天气| 哈巴河县| 隆回县| 乌鲁木齐县| 伊川县| 中阳县| 航空| 西青区| 元谋县| 萝北县| 綦江县| 定安县| 临潭县| 阿鲁科尔沁旗| 临城县| 锦屏县| 五峰| 高清| 景洪市|