微生信喊你升級motifStack了
什么是motif?
在DNA或蛋白的同源序列中,不同位點的保守程度是不一樣的,一般來說,對DNA或蛋白質(zhì)功能和結(jié)構(gòu)影響比較大的位點會比較保守,其它位點則不是很保守。這些保守的位點就稱為“模體(motif)”。
Motif展示
最簡單的是使用consensus sequence表示,例如m6A的motif,RRACH。
position weight matrix(或者頻數(shù)/率矩陣)來表示,如下圖所示
圖1. Pwm
motif logo
圖2 Motif
Bit計算公式如下:
使用R語言
library(entropy)
pos_bits = log2(4) - entropy(c(0, 0.5, 0, 0.5), unit="log2") # 第一個位置,bits = 1
pos_bits = log2(4) - entropy(c(0, 0.75, 0, 0.25), unit="log2") # 第二個位置,bits=1.1887
pos_bits = log2(4) - entropy(c(0, 0, 0, 1), unit="log2") # 第二個位置,bits=2
注意:公式中前面的2是log2(4),因為有4種堿基。若是蛋白質(zhì)則為log2(20)
深入的理論請搜索“信息熵”
motifStack介紹
motifStack包旨在為圖形化展示motif而設(shè)計,可以處理DNA、RNA序列motif和氨基酸motif。此外,它提供了顏色,字體等參數(shù)。非常方便使用。
motifStack 低版本小bug
圖3 舊版圖和新版圖
大家可以仔細看下除了顏色外,舊版和新版有什么不同之處。
細心的小伙伴可能已經(jīng)發(fā)現(xiàn),它們的Y坐標軸的刻度是不一樣的,舊版0到0.5是6個刻度,而新版0到0.5是5個刻度。很顯然,舊版的刻度有bug。
因此,我們給該包的作者反饋了這個bug,作者好像是中國人,我們直接給寫的中文郵件,^_^),很快就收到了作者的回復(fù)。
圖4 作者回復(fù)
motifStack新版
很快motifStack就更新了,目前最新版本是1.38.0。微生信建議大家都更新到最新版(需要R4.1+版本哦),不更新的話,就自帶bug,可以搜索下網(wǎng)上現(xiàn)有教程,全是bug版的!
微生信motifStack在線繪圖實操
首先使用瀏覽器打開微生信在線motif繪圖鏈接:http://www.bioinformatics.com.cn/plot_basic_dna_rna_protein_motif_043
圖5 微生信motif作圖頁面
2,準備輸入數(shù)據(jù)
按照右側(cè)示例準備數(shù)據(jù),其中第一行是>name1表示名字(輸入數(shù)據(jù)中必需有,后期不需要的話,可以編輯掉),第2-5行是4種DNA/RNA堿基每個位置對應(yīng)的堿基頻率(堿基順序無所謂,但是必需是4種),這里有7個位置,因此畫出來的圖就有7列。
而每個位置的4種堿基頻率之和就是1,即每一列豎著加起來正好等于1。
圖6 Motif輸入數(shù)據(jù)
3,選擇參數(shù)
包括顏色,scale與否等
4,點擊提交即可出圖
圖7 Motif圖
驚艷的motifStack可視化
最后,我們來欣賞下這個包出的驚艷圖吧
微生信助力發(fā)文章,谷歌引用640+,知網(wǎng)引用480+