爾云生信代碼|依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進(jìn)行分層聚類分析
科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!
搜索http://985.so/a9kb查看全部代碼(目前共計50+持續(xù)新增中),也可以點(diǎn)擊右側(cè)【目錄】,可以看到更多有趣的代碼;真香提示:文末可以知道如何獲取代碼~?
無監(jiān)督聚類是深度學(xué)習(xí)中一種建??蚣埽渲饕抢肒-Means算法進(jìn)行向量特征中心化聚類,該算法最終收斂并得到最后的K個類及類內(nèi)的觀察值。在k=?n(任意正整數(shù))的約束下,K-Means算法最小化了類內(nèi)的距離(內(nèi)聚最大化),最大化了類間距離(分離最大化),最終達(dá)到分類的效果。
在實(shí)際的隊(duì)列或病例對照研究中,主觀的分組會帶來較大的系統(tǒng)誤差,同時對于協(xié)變量的研究有利于探索疾病發(fā)生過程中更深層次的,我們可以利用有效信息將研究群體內(nèi)部的特征進(jìn)行聚類整合研究,將上述特征,此時我們可采用。
就目前的隊(duì)列研究中,對于某種研究特征(有效信息)在某一獨(dú)立研究群體(具有同種研究特征如某種疾病患者群體)中作用的探索方法較多,但均具有一定的主觀分類化的情況,因此,為了能夠更好的從數(shù)據(jù)真實(shí)的角度探索某種特征的變化過程是否對研究群體構(gòu)成分類,從而探索某種特征是否與研究特征(如癌癥)具有一定的相關(guān)性。無監(jiān)督聚類的方法目前是最為合適的一種方案,在實(shí)際的聚類應(yīng)用中,我們通常會考慮使用k-均值和k-中心化算法來進(jìn)行聚類分析,這兩種算法為了保證聚類的質(zhì)量,需要優(yōu)先確定最佳的簇數(shù),并使用輪廓系數(shù)來評估聚類的結(jié)果。這樣的過程就利用向量化的原理將多組特征進(jìn)行相互的比對尋找到最佳的中心向量,完成多維度信息的降維處理,使我們的研究更加簡便化。
本代碼目前主要針對于具有生存數(shù)據(jù)的疾病研究,如腫瘤。代碼是基于無監(jiān)督聚類算法,結(jié)合腫瘤數(shù)據(jù)的基因表達(dá)譜(也可是任意想要研究的表型譜,如甲基化,蛋白組,代謝組,臨床特征)和生存數(shù)據(jù)。只需要輸入表型矩陣以及生存數(shù)據(jù),軟件會自動計算樣本的無監(jiān)督聚類分組以及生存差異分析。同時繪制出K曲線,分組PCA圖,樣本分布條形圖,生存曲線。
使用方法:
Rscript?Cluster.R?-Expression=?-Phenotype=?-cluster.number=??-Genenumber.hotmap=
參數(shù)說明:
USAGE:
Cluster.R?-Expression=-Phenotype=-cluster.number=-Genenumber.hotmap=
PARAMETERS:
-Expressionthe?gene?expression?matrix,?gene?as?column,?sample?as?row,?input?csv?format.
-Phenotypethe?gene?Phenotype?matrix,?sample?as?row,input?csv?format.
Note:?Maintain?a?one-to-one?correspondence?with?the?name?of?Expression,?the?first?two?lines?of?the?file?must?contain?two?fields:"Stge"and"Time".?In?addation,?for?non-clinical?data,?replace?the"Stge"and"Time"columns?with?‘NA’.?In?the?end,?you?only?need?to?pay?attention?to?your?clustering?results,?that?is,?"cluester"?Group.csv"and"Cluster.PCA.pdf.
-cluster.numberthe?number,?Choose?the?expected?classification?index?K?(0-5).
Note:?The?cluster.number?can?be?given?at?the?beginning?of?the?program?at?will,?and?then?you?can?find?the?inflection?point?according?to?the?K-Cluster.?pdf?file?and?enter?the?running?program?again.
-Genenumber.hotmapthe?number,?Select?the?number?of?genes?you?want?to?display?in?the?hotmap.
操作步驟:
打開命令行界面(Mac?&?Linux?),輸入“Rscript?Cluster.R”調(diào)閱幫助文檔,確定該程序所需的輸入文件,請留意Note部分內(nèi)容,務(wù)必保持一致。
用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容,對參數(shù)進(jìn)行設(shè)置。首先,軟件必須輸入?yún)?shù)有4個:
(1)“-Expression”,此文件均表示表型矩陣文件(此處以TCGA數(shù)據(jù)框腫瘤基因表達(dá)數(shù)據(jù)為例),以基因(表型)為列,樣本為行,保存為csv文件;注:表型矩陣文件中數(shù)據(jù)類型需保持一致,需先進(jìn)行質(zhì)量控制,矩陣中不可出現(xiàn)‘null’等字樣,如有出現(xiàn)請?zhí)鎿Q成‘NA’。
(2)“-Phenotype”,此文件均表示分類表型矩陣文件(此處以TCGA數(shù)據(jù)框腫瘤臨床特征分類數(shù)據(jù)為例,如T,M,N,G,Age,Gander等),
(3)”-cluster.number”,?參數(shù)是指你的理想聚類個數(shù),在第一次運(yùn)行軟件的時候可以輸入0-5以內(nèi)的任意正整數(shù),根據(jù)軟件運(yùn)行結(jié)果中的“K-Cluster.pdf”確定最佳聚類個數(shù),再一次運(yùn)行軟件。
(4)?“-Genenumber.hotmap”,?參數(shù)是指你想要展示在熱圖中的基因個數(shù)。注意:此處如需展示您想要展示的表型內(nèi)容,請把這一部分內(nèi)容放到“-Expression”文件的最前面,并指定個數(shù)。
完成參數(shù)提交后,按下回車鍵,整個程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會給出提示。程序執(zhí)行完畢后,界面會顯示“Program?execution?is?completed”結(jié)束語。
流程圖:

結(jié)果展示:

1.該圖片主要進(jìn)行K值(Cluster.number)的挑選,挑選主要看K值之后的變化斜率是否穩(wěn)定。

2.此圖為樣本群體的PCA聚類圖展示,主要用于觀察幾組分類樣本的向量中心是否可以較好的分離。

3.該圖片為基因表達(dá)值或表型值的熱圖在不同的表型分組中如:聚類分組,年齡分組等,的表達(dá)差異。

4.此圖為K-M生存曲線,其中P值為三個聚類組別之間的顯著差異度,‘Number?at?risk’部分為每組中樣本分布個數(shù)的具體細(xì)節(jié),‘Number?of?censoring’是樣本分布區(qū)域的具體細(xì)節(jié)展示。
(如非臨床數(shù)據(jù),則此部分內(nèi)容不進(jìn)行輸出)

5.該文件包括了每一個樣本的聚類分組信息
如需代碼及示例數(shù)據(jù)等文件,請掃碼聊天框回復(fù) “B39”領(lǐng)取!?
寫在文末:
如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術(shù)團(tuán)隊(duì),生信熱點(diǎn)思路設(shè)計、生信分析、熱點(diǎn)方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情:
