用MEGA構(gòu)建進化樹,不會還有人不會吧?。ǘ?/h1>
爾云間? 一個專門做科研的團隊
歡迎點贊+收藏+關(guān)注

上次小果帶大家在數(shù)據(jù)庫下載了fasta序列并將其導(dǎo)入MEGA中進行序列比對,結(jié)果輸出后保存了mas文件,本期我們接上期繼續(xù):
3、篩選模型
雙擊保存的mas文件,點擊Data?Phylogenetic Analysi

回到主界面?點擊MODELS?Find Best DNA/Protein Models(ML)…


?這一步是為了尋找用來構(gòu)建進化樹最合適的模型,默認參數(shù)即可。

結(jié)束后會彈出一個界面,在BIC這一列中給出了模型得分,越靠前的越好,第一個是K2+G,但是軟件不支持組合模型,所以選擇排名最靠前的單個模型即可,這里小果選擇了K2.
4、構(gòu)建進化樹

在主界面點擊PHYLOGENY(樹狀圖標)?選第二個NJ鄰接法建樹
*最大似然法 (Maximum Likelihood) 和鄰接法 (Neighbor-Joining) 是兩種常見的建樹方法兩種方法之間的主要區(qū)別在于,最大似然法需要計算所有可能的樹形狀,因此對于大型數(shù)據(jù)集來說計算量很大,并且可能會受到計算資源的限制。而鄰接法則是一種啟發(fā)式方法,能夠處理更大的數(shù)據(jù)集,但它沒有考慮所有可能的樹形狀,可能會得到不同的樹形狀,取決于其啟發(fā)式算法的選擇和特定數(shù)據(jù)集的屬性??偟膩碚f,最大似然法對于小型和中型數(shù)據(jù)集是一個更準確的方法,而鄰接法則則適用于更大的數(shù)據(jù)集。當(dāng)然,你可以根據(jù)自己的偏好和分析目的選擇建樹方法。

在Test of Phylogeny中選擇bootstrap(bootstrap是一種常用的重復(fù)抽樣方法,用于評估構(gòu)建的進化樹的可靠性和統(tǒng)計顯著性)我們在步長檢驗次數(shù)選擇1000次(默認500)。
Model選擇篩選出的模型即可,這里用到剛剛選擇的K2
在Gaps/MissingData Treatment處選擇Partial deletion,Site CoverageCutoff選擇50。
*在分子序列中存在一些缺失的數(shù)據(jù)點或空缺的位置。這種缺失數(shù)據(jù)可能會對系統(tǒng)發(fā)育分析結(jié)果產(chǎn)生影響,因此需要對缺失數(shù)據(jù)進行處理。Partial deletion是其中一種方法,它將含有缺失數(shù)據(jù)的序列刪除,但保留在其它序列中完整的數(shù)據(jù)點。Site Coverage Cutoff是指在Partial deletion方法中,允許保留的數(shù)據(jù)點的最小比例或閾值。例如,選擇50表示只有在某個數(shù)據(jù)點上的數(shù)據(jù)在至少50%的樣本中都有觀測值時,才會將該數(shù)據(jù)點納入分析。這個閾值的選擇會影響結(jié)果的可靠性和準確性,較低的閾值可能會導(dǎo)致較多的噪音和偏差,較高的閾值可能會削減掉太多的數(shù)據(jù)點,可能會影響結(jié)果的精度和有效性。
點擊OK,稍等片刻樹就畫好了。

MEGA可以對進化樹進行可視化和編輯??梢蕴砑訕撕灐⒏淖冾伾蜆邮降?。最終的進化樹可以導(dǎo)出為多種格式,如PDF、PNG、SVG等。
以上就是基于MEGA軟件構(gòu)建進化樹的詳細步驟,怎么樣,是不是很簡單呢?
?
后記:
如果有繪制進化樹的需求,小果強烈安利本公司的云生信平臺,打開鏈接,在云生信·迎新春一欄找到“進化樹”,動動手指直接上傳自己的數(shù)據(jù)就出圖啦!下圖是用平臺示例數(shù)據(jù)做的圖喲~
?

怎么樣是不是很簡單呢!快來注冊賬號吧~
生信人R語言學(xué)習(xí)必備
立刻擁有一個Rstudio賬號
開啟升級模式吧
(56線程,256G內(nèi)存,個人存儲1T)
往期代碼:
【1】lncRNA的拷貝數(shù)變異下游相關(guān)分析
【2】R可視化:ggstatsplot包—科研界的美圖秀秀
【3】隨機森林算法用于分類預(yù)測和篩選診斷標志物
【4】基于本地Java版GSEA的輸出結(jié)果整合多個通路到一張圖
【5】基于嶺回歸模型和基因表達矩陣估算樣本對藥物反應(yīng)的敏感性
【6】基于R包NMF對樣本進行分型分析
【7】DALEX包用于探索、解釋和評估模型;分析不同特征變量對響應(yīng)變量的影響
【8】根據(jù)腫瘤突變負荷TMB進行KM生存分析尋找最佳的cutoff
【9】基于單樣本富集分析算法評估組織中的免疫細胞浸潤水平
【10】代碼分享│什么?你還在用散點圖來可視化數(shù)據(jù)之間的相關(guān)性
【11】代碼分享│診斷列線圖、校準曲線、決策曲線和臨床影響曲線的構(gòu)建
【12】代碼分享│你了解基因的動態(tài)變化模式嗎
【13】代碼分享│生物信息分析之SCI熱門圖表-復(fù)雜熱圖
【14】代碼分享│生物信息分析之SCI熱門圖表-火山圖
【15】代碼分享│生物信息分析之SCI熱門圖表-箱型圖和小提琴圖
【16】代碼分享│深度學(xué)習(xí)-人工神經(jīng)網(wǎng)絡(luò)(ANN)的構(gòu)建
【17】代碼分享│R可視化:高分文章繪圖之基于RCircos包的多類型圈圖繪制
【18】代碼分享│R可視化:基因與功能之間的關(guān)系--GO功能富集網(wǎng)絡(luò)圖繪制
【19】代碼分享│生物信息分析之SCI熱門圖表—KM曲線和tROC曲線
【20】代碼分享│R可視化:腫瘤預(yù)后模型之Cox回歸分析后用R語言繪制森林圖
【21】代碼分享│生物信息分析之SCI熱門圖表—相關(guān)性熱圖和散點圖
【22】代碼分享│生信分析之R語言分析相關(guān)性及可視化的N種風(fēng)格
【23】代碼分享│TCGA數(shù)據(jù)獲取有困難,不會預(yù)處理,學(xué)習(xí)起來
【24】代碼分享│機器學(xué)習(xí)-支持向量機遞歸特征消除(SVM-RFE)的構(gòu)建
【25】代碼分享│R可視化:對兩個矩陣進行相關(guān)性可視化分析
【26】GEO數(shù)據(jù)庫多數(shù)據(jù)集差異分析整合利器RRA,再也不用糾結(jié)去除批次效應(yīng)
【27】你與生信大佬的距離,只差2分鐘搞定預(yù)后模型構(gòu)建和性能評估
【28】9+SCI純生信,模型構(gòu)建中的“流量明星”,你不得不知的LASSO
【29】手把手教你畫美觀大氣的lasso回歸模型圖,為你的SCI增磚添瓦
【30】R可視化:clusterProfiler包做組間比較GO富集圖
【31】代碼分享|R可視化:復(fù)雜熱圖繪制技巧之熱圖中添加柱狀圖
【32】代碼分享——基于基因突變信息分析腫瘤突變負荷
【33】代碼分享│富集不到想要的通路?別放棄呀,試試GSEA
【34】代碼分享│還在用PCA做降維聚類嗎?最強降維模型tSNE--你值得擁有
【35】代碼分享│GSVA:原來功能通路也能做差異分析!
【36】代碼分享│Slingshot:你不知道的單細胞擬時序分析還有它
【37】基于基因功能注釋信息挖掘關(guān)鍵作用基因
【38】基于癌癥分類預(yù)測的標志物特征提取的SVM-RFE分析代碼
【39】依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進行分層聚類分析
【40】基于穩(wěn)健排序整合算法對多數(shù)據(jù)集進行整合及可視化
【41】基于基因表達譜估算樣本免疫基質(zhì)評分和腫瘤純度
【42】自動化繪制LASSO算法回歸模型圖
【43】用于臨床診斷和臨床決策影響的DCA分析
【44】基于樣本預(yù)后生存信息和臨床因素用于評價不同模型的一致性指數(shù)軟件
【45】用于探索、解釋和評估模型的DALEX殘差分析軟件
【46】基于細菌群落功能豐度結(jié)果進行差異功能分析及可視化
【47】基于基因差異分析結(jié)果繪制其在染色體上的分布
【48】利用逐步回歸法篩選特征基因構(gòu)建Cox風(fēng)險模型分析
【49】基于Immune Subtype Classifier進行腫瘤免疫亞型分類
【50】不同物種之間的同源基因名稱轉(zhuǎn)換分析
【51】基于逐步多因素cox回歸篩選預(yù)后標記基因并構(gòu)建風(fēng)險評分模型
【52】基于表達信息挖掘與關(guān)注基因密切相關(guān)的基因
【53】基因組學(xué)基因名稱修正分析
【54】基于Spearman算法構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)
【55】基于線性建模方法對代謝組和轉(zhuǎn)錄組數(shù)據(jù)整合分析
【56】基于lasso回歸模型方法篩選特征基因
【57】基于線性建模方法對代謝組和轉(zhuǎn)錄組數(shù)據(jù)整合分析
【58】基于參數(shù)型經(jīng)驗貝葉斯算法和支持向量機(SVM)篩選疾病亞型特征基因
【59】基于LDA(線性判別分析)算法的微生物biomarker的篩選
【60】基于R包xCell計算64種免疫細胞相對含量及下游可視化
【61】基于甲基化數(shù)據(jù)評估腫瘤純度及下游可視化
【62】基于DiffCorr包識別不同表型下的差異共表達關(guān)系對
【63】基于逆累計分布函數(shù)識別顯著偏差通路
【64】基于差異基因?qū)ν返挠绊懲诰蜿P(guān)鍵通路
【65】基于高通量數(shù)據(jù)的樣本相似性分析
需要以上代碼私信小果哦!

“生信果”,生信入門、R語言、生信圖解讀與繪制、軟件操作、代碼復(fù)現(xiàn)、生信硬核知識技能、服務(wù)器、生物信息學(xué)的教程,以及基于R的分析和可視化等原創(chuàng)內(nèi)容,一起見證小白和大佬的成長。