NCBI ORFfinder結果在線可視化
1,ORF簡介
開放閱讀框(Open Reading Frame,ORF)從起始密碼子開始,到終止密碼子結束的連續(xù)堿基序列,具有蛋白質編碼潛能。由于密碼子(codon)讀寫起始位點的不同,mRNA序列可能按照6種ORF閱讀和翻譯。如圖1所示,對于序列1,可以從A開始讀,也可以從T開始讀,也可以從G開始讀,因此一條序列上就有3種讀碼方式。同樣的,互補鏈上也有3種,共6種ORF閱讀方式。理論上,6種讀碼框都有“開放”的可能,但是現實世界中,生物體一般會使用不多于2個“開放讀碼框”。
圖1. 6種讀碼框示意圖
2,NCBI ORFfinder
ORF識別是確定哪種開放閱讀框對應真正的多肽編碼序列的過程。NCBI ORFfinder為最常用的ORF預測在線工具,使用也非常簡單。
2.1,打開NCBI ORFfinder網站
在瀏覽器中輸入網站:https://www.ncbi.nlm.nih.gov/orffinder/
圖2. NCBI ORFfinder
2.2,粘貼序列并選擇參數
Fasta格式文件是存儲核酸或者蛋白質序列的一種標準格式。是以大于號“>”開頭,后邊接序列名字為第一行,其余行為序列的一種標準序列存儲文件格式。如圖所示:
圖3. Fasta格式序列
這個文件中包含兩條序列,一條是seq1,一條是seq2。
進行ORFfinder預測時,我們要將fasta格式的序列拷貝粘貼到輸入框中(一次一條)。
這里我們粘貼來自lncipedia(https://lncipedia.org/,lncRNA百科全書網站)的一條lncRNA序列PITPNM2-AS1:6進行預測。然后選擇參數(一般默認)。最后點擊提交按鈕,等候幾秒鐘后會出現結果。
圖4. NCBI ORFfinder序列提交及參數選擇
2.3,結果查看
結果包括:
1,預測的ORFs
2,6種讀碼框(需要點擊Six-frame translation處按鈕才顯示)
3,每個預測的ORF所處的讀碼框、坐標及長度(核苷酸|氨基酸),可以下載查看具體核酸序列及氨基酸序列等
4,對應的氨基酸序列,可以進行blast等操作
圖5. NCBI ORFfinder結果
然而,相較于舊版ORFfinder(圖5),新版NCBI ORFfinder的結果不好在論文中展示??鄬o果后,我們參考文獻中舊版ORFfinder的樣式,開發(fā)了在線ORFfinder結果可視化功能。
圖6. 舊版NCBI ORFfinder結果
3,ORFfinder在線可視化(仿舊版)
3.1,打開繪圖頁面
微生信-在線NCBI ORFfinder結果可視化 (bioinformatics.com.cn)
圖7. ORFfinder可視化頁面
3.2,拷貝示例數據
下載示例數據,該模塊的輸入為第一個sheet的內容。
(可以將第2個sheet的序列提交到NCBI ORFfinder,默認參數,獲得sheet1的內容)。
圖8. 輸入數據示例
第一列為ORF的名字(label),第二列為鏈(Strand),第三列為讀碼框編號(Frame),第4、5列為ORF的起始和終止坐標,第6列為長度,包括核酸和蛋白的長度。
3.3,粘貼示例數據
必需輸入包括兩個:1,orffinder的結果,2,序列總長度(可由NCBI ORFfinder結果中查到)
圖9. 必需輸入
3.4,修改參數,并提交
圖10. 顏色等參數
開放了圖片尺寸,ORF顏色,最長ORF顏色等參數,以滿足不同的繪圖需求。
3.5,提交出圖
結交約3秒后,在頁面右側出現結果預覽圖,其中最長ORF用紫紅色標注。我們提供了4種圖片格式供下載使用,兩種矢量圖(pdf,svg)和兩種標量圖(600 dpi tiff和300 dpi png)。
圖11. 仿ORFfinder舊版可視化結果
注意:舊版中坐標小的在左側,大的在右側,跟新版略有不同。這里使用的左側小,右側大的排序方式。
沒有預覽就是沒有出圖,這時請參考示例數據,檢查輸入數據格式!
遇到文字截斷,需要修改字體、調整字體大小等,使用scape 軟件。