知乎用戶(hù) | 生信小白如何半年內(nèi)收到核心期刊錄用證明順利畢業(yè)?。。?/h1>
逛「知乎」看到了一個(gè)「TBtools」用戶(hù)(ID:李四光)發(fā)表的系列博文,感覺(jué)不錯(cuò),問(wèn)詢(xún)后,轉(zhuǎn)載于此。一共數(shù)篇,將會(huì)逐個(gè)刊出。盡管我個(gè)人并不鼓勵(lì)家族分析用于發(fā)表論文,但不代表做家族分析不能給我們帶來(lái)新的知識(shí),感興趣的可以翻一下「生信藥丸」的歷史推文,希望能更詳細(xì)表述我的個(gè)人觀點(diǎn)。本篇推文,希望對(duì)其他朋友有用。?- CJ
本人農(nóng)林院校的專(zhuān)碩研究生,學(xué)制2.5年,畢業(yè)要求是一篇核心及以上或者專(zhuān)利。碩士期間課題換了兩次,實(shí)驗(yàn)數(shù)據(jù)不能支持發(fā)一篇研究論文,前期大量時(shí)間荒廢沒(méi)有知識(shí)儲(chǔ)備寫(xiě)出綜述,結(jié)合課題只能做一個(gè)物種的生信分析,保證畢業(yè)。當(dāng)我知道這篇文章是我的“救命稻草”后,就開(kāi)始瘋狂問(wèn)同學(xué),找公眾號(hào),去b站……2021年5月22日學(xué)習(xí)了陳程杰老師的基因家族分析講演,2021年8月24日完成論文的初稿,2021年11月29日收到投稿雜志的錄用證明。


圖中是用到的大部分軟件和網(wǎng)站,使用最多的是TBtools也就是陳老師開(kāi)發(fā)的強(qiáng)大的生物信息學(xué)分析工具(包括序列的提取,引物設(shè)計(jì),基因結(jié)構(gòu)保守域的可視化……總之功能很多,只有你不會(huì)用,而且軟件一直在更新,免費(fèi)的,大家可以自行搜索“生信藥丸”公眾號(hào),使用講解的很全面,保姆級(jí)別了);
其余一些使用頻率不是那么高的,VMD是蛋白三級(jí)結(jié)構(gòu)模型預(yù)測(cè)的可視化軟件,細(xì)節(jié)很足,可以自行探索;
figtree和網(wǎng)站iTOL都是進(jìn)化樹(shù)的可視化,因?yàn)楸救说幕蚣易宄蓡T接近400左右,實(shí)在很大,圖片如果要清楚美觀選擇了后者,figtree應(yīng)該也可以,但是本人未能摸透就放棄了;
Jalview可以進(jìn)行多序列的比對(duì),對(duì)于其中的一些氨基酸位點(diǎn)可以根據(jù)需要用不同顏色進(jìn)行高亮顯示;
MEGA可以序列比對(duì)再生成進(jìn)化樹(shù),如果選擇其他美化修飾軟件,也是需要MEGA氨基酸序列比對(duì)后保存相關(guān)文件(.meg/.mtxs)導(dǎo)入才可。
當(dāng)然,還有其他的許多軟件和網(wǎng)站,根據(jù)分析的需求進(jìn)行選擇和組合都是沒(méi)有問(wèn)題的。
本人的基因家族分析大體包括三個(gè)部分:
????1) 基因家族成員的鑒定
????2) 基本理化性質(zhì)的分析
??? 3) 家族成員進(jìn)化分析。
其中,基因家族成員的鑒定最為重要,也是反反復(fù)復(fù)比對(duì)后才確認(rèn)。
首先,基因家族成員的鑒定包括:
研究的基因家族家族成員的基本特征確定
參考已有物種,我研究的是栽培花生,參考的是模式植物擬南芥,擬南芥二倍體植物,2n=10,該基因家族成員有100個(gè)左右,花生異源四倍體作物,2n=40,預(yù)估200以上,400左右)
目標(biāo)物種序列和注釋信息的下載(花生和擬南芥的基因組文件,基因組注釋文件,共4個(gè)文件)
雙向Blast比對(duì)獲取可能的成員(TBtools軟件進(jìn)行提取后,上傳序列至ncbi batch cdd/pfam/hmmer基于保守結(jié)構(gòu)域進(jìn)一步篩選)。
其次,是基因家族成員的基本分析包括
成員理化性質(zhì)分析(分子量,等電點(diǎn),親/疏水性,有無(wú)信號(hào)肽/跨膜結(jié)構(gòu)域和亞細(xì)胞定位。可以做成表格,其他分析大都是圖片的形式)
基因染色體分布情況(成員在染色體上的分布做成圖,每條染色體上基因成員的數(shù)量也可以統(tǒng)計(jì)做圖)
基因結(jié)構(gòu)分析(外顯子內(nèi)含子分布及數(shù)量)和保守結(jié)構(gòu)域分析(與確定家族成員重復(fù),可視化更為直觀,如果家族基因數(shù)量不多可以把兩張圖合并)。
最后,基因家族成員的進(jìn)化分析,包括
進(jìn)化樹(shù)構(gòu)建與可視化(本人研究基因家族成員較大,亞家族分類(lèi)與參考(擬南芥)/已知(水稻、小麥、葡萄和櫟樹(shù))物種較為一致,暗示結(jié)果具有一定可靠性)
物種內(nèi)的共線性分析(可以看基因是否存在串聯(lián)重復(fù))
不同物種之間的共線性分析(研究種間基因組同源性程度,抄過(guò)來(lái)的,通俗的理解是目標(biāo)物種為A,現(xiàn)在做了ABC三個(gè)物種的共線性,其中AB共線性數(shù)量多于AC,說(shuō)明A和B的親緣關(guān)系更近)。
當(dāng)然,以上內(nèi)容僅為最基礎(chǔ)的部分,其他更深入全面的分析如啟動(dòng)子的預(yù)測(cè),三級(jí)結(jié)構(gòu)模型的預(yù)測(cè),部分實(shí)驗(yàn)qRT-PCR等等。
如果你想發(fā)一篇好文章,這遠(yuǎn)遠(yuǎn)是不夠的,只能說(shuō)越早開(kāi)始越好。以上是內(nèi)容大概,后期發(fā)布詳細(xì)分析過(guò)程。

本文使用 文章同步助手 同步