前車之鑒!基因家族分析、功能研究,一步之差,努力白費!
寫在前面
不知為何,幾乎每天我都會收到一些「基因家族分析」的論文審稿邀請,其中質(zhì)量參差不齊,但有不少論文作者團(tuán)隊非常友好,總是留下一個非常好提問機(jī)會。那就是「基因家族成員序列有問題」這意味著,得重做。對于一個以「基因家族分析」為主題的工作來說,往往相關(guān)表格和圖片都得重新來。如果不小心,用了錯誤的基因序列做功能驗證,那更是白費一年時間。
當(dāng)然,對于審稿人不小心的情況,也比比皆是。簡單通過 google scholar 搜索,可以很快找到一大堆已發(fā)表的論文,從主圖來看,有經(jīng)驗的審稿人一眼就看出問題。這個錯誤的責(zé)任,20%歸結(jié)于發(fā)布基因組的人,更有80%歸結(jié)于進(jìn)行基因家族鑒定工作的人。后者,我覺得還是要精細(xì)一些。
幾個示例

上圖由于串聯(lián)重復(fù)基因被注釋成一個,從 motifs pattern 就可以看出來問題。圖片得重做,表格得更新!?

上圖由于注釋錯誤,應(yīng)該是將近端的基因注釋成UTR,圖片得重做,表格得更新!

上圖將近鄰的基因直接注釋成ORF,所以導(dǎo)致超長CDS。圖片得重做,表格得更新!

如上,超長UTR

串聯(lián)重復(fù)或者近鄰基因被注釋進(jìn)來的。

上圖將近鄰的基因直接注釋成ORF,所以導(dǎo)致超長CDS。圖片得重做,表格得更新!?

明顯缺胳膊少腿,注釋問題。
處理問題
對于這類基因結(jié)構(gòu)注釋錯誤,如何處理?我記得 5 年前,類似情況發(fā)文占比可能更高的一些。我一直在提議也強(qiáng)調(diào)這個問題值得重視:
對于做基因組的朋友來說,高質(zhì)量的序列要高質(zhì)量的注釋才是高質(zhì)量的參考;
對于做基因功能研究的朋友來說,錯誤的注釋可能會直接讓數(shù)年努力白費;
對于做基因家族分析的朋友來說,還是要精細(xì)一點,做一點可能的貢獻(xiàn)。
這五年來,為了應(yīng)對這一問題,我大體分成三個階段給出解決辦法:
開發(fā)了 TBtools 的 Re-construct GXF ,這一功能可以基于用戶輸入的轉(zhuǎn)錄本序列和參考基因組序列,自動生成一個借用的GXF,我相信我提出來的時候,應(yīng)該沒啥人去注意這個事情,至少沒有人讓這個事情變得如此簡單。當(dāng)然,我必須說明,北大高歌老師的GSDSv2網(wǎng)站內(nèi)部應(yīng)是有做一些處理完成這個工作。有了這個功能,用戶完全可以基于區(qū)間預(yù)測CDS或者EXON結(jié)構(gòu),得到序列后重構(gòu)。稍顯麻煩,后期利用GXF也比較麻煩;
開發(fā)了 IGV-GSAme (Gene Structure Annotation Manual Editor),基于IGV源碼重度開發(fā)的版本,這一版本事實上是基于前述我寫的 IGV-sRNA。使用這一版本,用戶可以直接對 IGV 的 GXF Track 進(jìn)行基因結(jié)構(gòu)注釋調(diào)整。說實話,這個修改直接讓我不想再看到 IGV-sRNA 和 IGV-GSAme,因為修改后感覺已經(jīng)把 IGV 改得亂七八糟。用起來完全沒什么,但是真的很奇怪,我總覺得哪里會出問題,同時改造結(jié)果不在我的控制范圍內(nèi)。
開發(fā)了 IGV-GSAman(Gene Structure Annotation Manipulator),同樣是基于 IGV 源碼改造,不過這次的改造我很滿意。這個改造其實是基于第二次 IGV-sRNA 來寫的(IGV-sRNA也是重新開發(fā),只是覺得沒必要增加一個v2,我覺得前后沒啥區(qū)別,實現(xiàn)邏輯有很大優(yōu)化,僅此而已)。GSAman 不同,他跟 GSAme 完全是不同的東西。自然,本身GSAman其實....是一個簡單的功能或者特性開發(fā)嘗試,我只是想試試能不能在 IGV 里面加一個自定義的 Track,但是沒想到真干成了.....
于是現(xiàn)在有了 IGV-GSAman,他可以幫助幾乎所有人解決「基因結(jié)構(gòu)注釋偏差」的問題。

更多特性,推薦大伙參考 GSAman Cookbook。說實話,真的很強(qiáng)!
寫在最后
我從未做過一個基因家族分析的論文,但可能我審過基因分析論文有太多。我仍然不太希望有朋友因為這類簡單的偏差,導(dǎo)致半年一年的東西要從頭再來。對于基因功能研究的朋友,更是如此。
如果我們從一開始就做對,那或許路子就沒那么坎坷~
本文使用?文章同步助手?同步