最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

個人學(xué)習(xí)記錄:葉綠體基因注釋1,PGA的安裝使用與避坑

2022-04-20 11:24 作者:貓膩需要更多的學(xué)習(xí)  | 我要投稿

先試一下PGA,這是官方的解說:https://www.jianshu.com/p/6ac8a9fad9c9

下載網(wǎng)頁:https://github.com/quxiaojian/PGA

下載壓縮文件到桌面,解壓即食,實際上并不能即食,里面執(zhí)行命令的文件是PGA.pl ,需要perl程序語言來編譯。

之前安裝了miniconda,在conda里面下載安裝比較方便管理,所以打開conda的命令提示符,下載perl。

此外PGA運行實際上是進行比對的處理,序列比對需要安裝本地Blast(https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.13.0+-win64.exe)。

cd 進入到解壓好后? PGA.pl? 所在的文件夾,就可以使用這個程序了。

第一次會很慢,等一下就好。


必要參數(shù):

-r 后面跟著參考序列g(shù)b文件所在的文件夾,一般會放多個參考序列,包括最先注釋的無油樟的葉綠體注釋基因(保證注釋基因數(shù)量)和要注釋物種的近緣種的葉綠體注釋基因組。無油樟的葉綠體注釋可以不用,但要保證近緣種的注釋參考是質(zhì)量很高的基因數(shù)量是全的。

-t 后面跟要分析的拼接好的fast文件所在的文件夾,它會自動識別哪些文件是可以操作分析的。


選擇參數(shù):

-i?最小允許反轉(zhuǎn)重復(fù)(IR)長度。默認(rèn)1000,目前我還不太清楚不同的調(diào)整具體會帶來什么影響,如果弄清楚了回來改正,有誰知道也可以教教我。

-p? 應(yīng)該是說設(shè)置一個閾值,序列相似度小于這個值的序列就不會被注釋,數(shù)值較高的話注釋會比較準(zhǔn)確,數(shù)值較低的話可能有基因注釋不上,如果參考序列的親緣較近可以適當(dāng)調(diào)高。

-q 設(shè)置比對覆蓋度,舉個荔枝,你的目標(biāo)序列的基因a,由于提前出現(xiàn)了終止密碼子成了假基因,使得這段序列從起始密碼子到終止密碼子只有60個堿基,但是參考序列的這個基因是完整的有120個堿基,如果設(shè)定覆蓋度? <1.2?,>0.8? 那么這個覆蓋度為0.5的基因就不會被注釋上。

-o 設(shè)定輸出文件夾,如果不設(shè)定會自動在PGA.pl 所在文件夾里生成一個gb文件夾輸出,自己選定的話一定要保證文件夾是空的,這個很重要,如果不是空的,它會幫你刪空,所以不要隨便選文件夾,否則會不可挽回的丟失原先文件夾里的所有文件包括子文件夾里的東西(血的教訓(xùn))



-f?輸出成環(huán)還是線性,一般默認(rèn),有些物種確實不是環(huán)

-l 輸出日志,會顯示有哪些問題,很有用,建議加上

2023.11.21 加筆

在注釋的時候可能會遇到一個基因也沒有注釋上的情況

回去看cmd的運行反饋,顯示

print() on closed filehandle $out_reference4 at PGA.pl line 1387.

Command line argument error: Argument "query". File is not accessible: "參考gb文件路徑"

如下圖:

意思是參考的文件無法讀取。

一個原因可能是這個文件權(quán)限設(shè)置問題,檢查一下文件權(quán)限,一般來說不會在這里出現(xiàn)問題。

另一個原因是我遇到的:文件的名字里面存在空格,導(dǎo)致文件無法被讀取,這可能是軟件設(shè)計的缺陷,運行PGA前保證文件名里沒有不可讀的字符還是比較重要的。


2023.12.5 加筆

Geneious導(dǎo)出文件可以將好幾條序列儲存在一個文件中,ncbi上批量下載的時候也可以。

但是包含多條序列的fasta文件似乎無法被PGA準(zhǔn)確識別而注釋失敗,一條葉綠體基因放一個單獨的fasta文件中再使用PGA注釋。


上述包含多條序列的fasta文件在經(jīng)過PGA注釋后依舊會生成一個gb文件,log文件會告訴你很多基因沒注釋上,但是log記錄很亂,沒什么參考價值。這個多序列fasta文件生成的gb文件千萬不要往Geneious里丟,Geneious讀不了卻一直試圖讀取,最后完全卡死電腦風(fēng)扇轉(zhuǎn)得飛起。

如果不幸卡死了,只能強制退出,重新進入的時候會提示你新建工作目錄,舍棄之前因為有問題數(shù)據(jù)導(dǎo)致讀取就會卡死的工作目錄。

如果沒有備份的話,重開就虧大了,這時候可以到Geneious的所在路徑里的找"D:\Geneious Prime\data_for_Geneiuos\.localDatabase"(我安裝在了D盤),把這個文件夾里日期最新的文件全刪掉,如果不確定有問題的是哪一個數(shù)據(jù),就把最近一段時間的多刪一點,無非是失去了半天的工作成果。

24.3.11 加筆

調(diào)取注釋后的gb文件中的基因片段

下載:

https://github.com/Kinggerm/PersonalUtilities/blob/master/get_annotated_regions_from_gb.py


個人學(xué)習(xí)記錄:葉綠體基因注釋1,PGA的安裝使用與避坑的評論 (共 條)

分享到微博請遵守國家法律
保德县| 鞍山市| 正蓝旗| 阿勒泰市| 乌兰察布市| 罗甸县| 大洼县| 漳浦县| 遂平县| 兴国县| 图们市| 静海县| 大连市| 云浮市| 奉新县| 克东县| 临武县| 浦东新区| 霸州市| 毕节市| 淮阳县| 额尔古纳市| 托克托县| 潮安县| 丰城市| 衡东县| 扎鲁特旗| 泽库县| 舒城县| 社会| 桂东县| 鲁甸县| 塔河县| 武功县| 宣城市| 民勤县| 侯马市| 新密市| 习水县| 玉田县| 固镇县|