純生信為何能輕松拿捏7分+?小樣本量+機(jī)器學(xué)習(xí)SVM+雙疾病這種套路【文獻(xiàn)解讀】
最近不知道咋地,研究雙疾病聯(lián)合作用的套路貌似有點(diǎn)火,例如《Exploring the Pathogenesis of Psoriasis Complicated With Atherosclerosis via Microarray Data Analysi》、《Exploration of the Shared Gene Signatures and Molecular Mechanisms Between Systemic Lupus Erythematosus and Pulmonary Arterial Hypertension: Evidence From Transcriptome Data》等,這兩篇雙疾病研究文章優(yōu)勢(shì)在于他們的背景介紹和討論分析非常有意思,把兩種疾病緊密的聯(lián)系在一起了。
而小編今天分享的這篇文章《Similarity and Potential Relation Between Periimplantitis and Rheumatoid Arthritis on Transcriptomic Level: Results of a Bioinformatics Study》背景不清、討論不細(xì)、數(shù)據(jù)樣本量還不大,這么平平無(wú)奇為何能發(fā)7分+?這就值得小編去探索一下,對(duì)比之后,小編猜測(cè)作者可能利用非?;馃岬臋C(jī)器學(xué)習(xí)算法SVM來(lái)增加了文章的分值。
還記得嗎?之前小編在我們的公眾號(hào)上分享過(guò)非常多的機(jī)器學(xué)習(xí)算法(例如:LASSO、SVM-RFE、RF、ANN等),可能大家太忙了都沒(méi)有去關(guān)注,看完今天小編分享的這篇文章后,希望大家可以有所啟發(fā)。廢話不多說(shuō),下面小編就帶領(lǐng)大家一起閱讀一下這篇小樣本量+機(jī)器學(xué)習(xí)SVM+雙疾病的7分+純生信文章。

分析流程圖

背景平平無(wú)奇就不多看了,有興趣的同學(xué)可以自己去閱讀一下。
數(shù)據(jù)
GSE33774包括8名對(duì)照和7名種植體周?chē)谆颊?/p>
GSE106090包括6名對(duì)照和6名種植體周?chē)谆颊?/p>
結(jié)果呈現(xiàn)
01?種植體周?chē)椎牟煌磉_(dá)基因

GSE33774和GSE106090之間的DEGs 比較揭示了 138 個(gè)常見(jiàn)的 DEGs,包括 101 個(gè)上調(diào)基因和 37 個(gè)下調(diào)基因。

02??功能豐富
在生物學(xué)過(guò)程中顯著富集的 DEGs參 與中性粒細(xì)胞活化、B 細(xì)胞受體信號(hào)通路、B 細(xì)胞活化和細(xì)胞對(duì)細(xì)菌來(lái)源分子的反應(yīng)密切相關(guān)。

03?蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)
構(gòu)建的種植體周?chē)椎?PPI 互通包括 1,818 個(gè)節(jié)點(diǎn)和 2,517 個(gè)邊緣。根據(jù)拓?fù)涮卣?,MAPT、TGM2、SPP1在生物網(wǎng)絡(luò)中度數(shù)最高,可能影響種植體周?chē)椎陌l(fā)展。

04??轉(zhuǎn)錄因子-基因調(diào)控網(wǎng)絡(luò)
TF-靶基因調(diào)控對(duì)從 TRRUST、TRANSFAC、cGRNB、ORTI 和 HTRIdb 數(shù)據(jù)庫(kù)下載。共提取了 1,067 個(gè) TF-target 相互作用,構(gòu)建了 TF-target 網(wǎng)絡(luò)。具有最高程度的潛在串?dāng)_基因是DLG2、MMP9和IL6,因此可能在 TF-target 網(wǎng)絡(luò)中發(fā)揮重要作用。

05?風(fēng)險(xiǎn)串?dāng)_基因的預(yù)測(cè)
RA 相關(guān)基因從 DisGeNET 數(shù)據(jù)庫(kù) ( https://www.disgenet.org/home/ ) 下載。確定了潛在的串?dāng)_基因,它們是 RA 相關(guān)基因,并與上調(diào)和下調(diào)的種植體周?chē)紫嚓P(guān) DEG 重疊。

06?串?dāng)_基因的SVM建模
對(duì)GSE33774和GSE106090數(shù)據(jù)進(jìn)行整合,基于串?dāng)_基因,利用SVM-RFE 方法選擇了6個(gè)特征(MERTK、CD14、MAPT、CCR1、C3AR1 和 FCGR2B),從合并后的數(shù)據(jù)中提取6個(gè)特征基因的基因表達(dá)譜,然后進(jìn)行樣本層次聚類(lèi),結(jié)果表明疾病組和對(duì)照組可以聚類(lèi)為兩組。因此,用這六個(gè)基因構(gòu)建了SVM模型。

07??種植體周?chē)着c類(lèi)風(fēng)濕關(guān)節(jié)炎的關(guān)系預(yù)測(cè)
從類(lèi)風(fēng)濕關(guān)節(jié)炎(RA) 數(shù)據(jù)集GSE93272中提取了六個(gè)特征基因的基因表達(dá)譜,然后輸入到由種植體周?chē)讛?shù)據(jù)集建立的模型中。Fisher 精確檢驗(yàn)顯示p值小于 0.05,證實(shí)了 6 個(gè)串?dāng)_基因?qū)ΨN植體周?chē)缀?RA 的預(yù)測(cè)。CD14和FCGR2B在種植體周?chē)缀蚏A中的表達(dá)最高。CD14和FCGR2B在種植體周?chē)℅SE33774和GSE106090)中的曲線下面積(AUC)值超過(guò)95%。在 RA 數(shù)據(jù)集(GSE93272)中,CD14 和 FCGR2B 的 AUC 值分別為 73.77% 和 82.81%。

08?通路-基因功能網(wǎng)絡(luò)
選擇了可能在種植體周?chē)装l(fā)展中起重要作用的 17 條重要途徑。為了識(shí)別種植體周?chē)缀蚏A之間的通路串?dāng)_,構(gòu)建了通路-基因串?dāng)_網(wǎng)絡(luò)。在激活的通路-基因網(wǎng)絡(luò)中有四個(gè)特征基因(CD14、CCR1、C3AR1和FCGR2B )。

本文分析到此就結(jié)束了,可以看到整個(gè)分析其實(shí)是比較簡(jiǎn)單的,但是該文章很好詮釋了純生信小樣本量+機(jī)器學(xué)習(xí)SVM+雙疾病這種套路也是可以發(fā)7分+的。但是小編認(rèn)為,結(jié)合雙疾病的思路來(lái)進(jìn)行研究,至少需要具備如下條件:
需要有相應(yīng)的背景知識(shí),兩種疾病之間的聯(lián)系是要相應(yīng)的背景介紹的,不能隨便找兩種疾病,
做純生信分析肯定也是需要對(duì)應(yīng)的數(shù)據(jù),樣本量至少每個(gè)分組5個(gè)以上,當(dāng)然是越多越好。
套路也不能應(yīng)用已發(fā)表的文獻(xiàn),說(shuō)實(shí)話,像已發(fā)表的雙疾病研究文獻(xiàn)基本的分析流程就是利用了差異表達(dá)分析、功能注釋、PPI等最基本的生信手段,繼續(xù)套用有很大風(fēng)險(xiǎn)會(huì)被拒,因此思路上需要?jiǎng)?chuàng)新,在常規(guī)生信手段的基礎(chǔ)上加一些熱門(mén)手段(例如:LASSO、RF、SVM、WGCNA等),或者加一些多組學(xué)的研究(蛋白組、代謝組等)。
以上就是小編的分享內(nèi)容,如果您滿足雙疾病的研究條件而苦于沒(méi)有思路不知道如何來(lái)入手生信分析,或者需要一些熱門(mén)生信手段的代碼,可以掃碼找到。生信熱點(diǎn)思路設(shè)計(jì)、SCI熱門(mén)圖表制作、熱點(diǎn)方向數(shù)據(jù)挖掘等,如有需要,可加掃描下方二維碼了解詳情。
