散文網(wǎng) » 科技 »學(xué)習(xí) » 爾云生信代碼|依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進(jìn)行分層聚類分析

爾云生信代碼|依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進(jìn)行分層聚類分析

2022-08-23 15:57 作者:爾云間 0人讀過 | 我要投稿

科研有捷徑，輸入代碼，一鍵獲取科研成果！就是這么省事，來具體看下有多方便！

搜索http://985.so/a9kb查看全部代碼（目前共計50+持續(xù)新增中），也可以點(diǎn)擊右側(cè)【目錄】，可以看到更多有趣的代碼；真香提示：文末可以知道如何獲取代碼~?

無監(jiān)督聚類是深度學(xué)習(xí)中一種建?？蚣埽渲饕抢肒-Means算法進(jìn)行向量特征中心化聚類，該算法最終收斂并得到最后的K個類及類內(nèi)的觀察值。在k=?n(任意正整數(shù))的約束下，K-Means算法最小化了類內(nèi)的距離(內(nèi)聚最大化)，最大化了類間距離(分離最大化)，最終達(dá)到分類的效果。

在實(shí)際的隊(duì)列或病例對照研究中，主觀的分組會帶來較大的系統(tǒng)誤差，同時對于協(xié)變量的研究有利于探索疾病發(fā)生過程中更深層次的，我們可以利用有效信息將研究群體內(nèi)部的特征進(jìn)行聚類整合研究，將上述特征，此時我們可采用。

就目前的隊(duì)列研究中，對于某種研究特征（有效信息）在某一獨(dú)立研究群體（具有同種研究特征如某種疾病患者群體）中作用的探索方法較多，但均具有一定的主觀分類化的情況，因此，為了能夠更好的從數(shù)據(jù)真實(shí)的角度探索某種特征的變化過程是否對研究群體構(gòu)成分類，從而探索某種特征是否與研究特征（如癌癥）具有一定的相關(guān)性。無監(jiān)督聚類的方法目前是最為合適的一種方案，在實(shí)際的聚類應(yīng)用中，我們通常會考慮使用k-均值和k-中心化算法來進(jìn)行聚類分析，這兩種算法為了保證聚類的質(zhì)量，需要優(yōu)先確定最佳的簇數(shù)，并使用輪廓系數(shù)來評估聚類的結(jié)果。這樣的過程就利用向量化的原理將多組特征進(jìn)行相互的比對尋找到最佳的中心向量，完成多維度信息的降維處理，使我們的研究更加簡便化。

本代碼目前主要針對于具有生存數(shù)據(jù)的疾病研究，如腫瘤。代碼是基于無監(jiān)督聚類算法，結(jié)合腫瘤數(shù)據(jù)的基因表達(dá)譜（也可是任意想要研究的表型譜，如甲基化，蛋白組，代謝組，臨床特征）和生存數(shù)據(jù)。只需要輸入表型矩陣以及生存數(shù)據(jù)，軟件會自動計算樣本的無監(jiān)督聚類分組以及生存差異分析。同時繪制出K曲線，分組PCA圖，樣本分布條形圖，生存曲線。

使用方法：

Rscript?Cluster.R?-Expression=?-Phenotype=?-cluster.number=??-Genenumber.hotmap=

參數(shù)說明：

USAGE:

Cluster.R?-Expression=-Phenotype=-cluster.number=-Genenumber.hotmap=

PARAMETERS:

-Expressionthe?gene?expression?matrix,?gene?as?column,?sample?as?row,?input?csv?format.

-Phenotypethe?gene?Phenotype?matrix,?sample?as?row,input?csv?format.

Note:?Maintain?a?one-to-one?correspondence?with?the?name?of?Expression,?the?first?two?lines?of?the?file?must?contain?two?fields:"Stge"and"Time".?In?addation,?for?non-clinical?data,?replace?the"Stge"and"Time"columns?with?‘NA’.?In?the?end,?you?only?need?to?pay?attention?to?your?clustering?results,?that?is,?"cluester"?Group.csv"and"Cluster.PCA.pdf.

-cluster.numberthe?number,?Choose?the?expected?classification?index?K?(0-5).

Note:?The?cluster.number?can?be?given?at?the?beginning?of?the?program?at?will,?and?then?you?can?find?the?inflection?point?according?to?the?K-Cluster.?pdf?file?and?enter?the?running?program?again.

-Genenumber.hotmapthe?number,?Select?the?number?of?genes?you?want?to?display?in?the?hotmap.

操作步驟：

打開命令行界面(Mac?&?Linux?)，輸入“Rscript?Cluster.R”調(diào)閱幫助文檔，確定該程序所需的輸入文件，請留意Note部分內(nèi)容，務(wù)必保持一致。
用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容，對參數(shù)進(jìn)行設(shè)置。首先，軟件必須輸入?yún)?shù)有4個：

（1）“-Expression”，此文件均表示表型矩陣文件（此處以TCGA數(shù)據(jù)框腫瘤基因表達(dá)數(shù)據(jù)為例），以基因（表型）為列，樣本為行，保存為csv文件；注：表型矩陣文件中數(shù)據(jù)類型需保持一致，需先進(jìn)行質(zhì)量控制，矩陣中不可出現(xiàn)‘null’等字樣，如有出現(xiàn)請?zhí)鎿Q成‘NA’。

（2）“-Phenotype”，此文件均表示分類表型矩陣文件（此處以TCGA數(shù)據(jù)框腫瘤臨床特征分類數(shù)據(jù)為例，如T，M，N，G，Age，Gander等），

（3）”-cluster.number”,?參數(shù)是指你的理想聚類個數(shù)，在第一次運(yùn)行軟件的時候可以輸入0-5以內(nèi)的任意正整數(shù)，根據(jù)軟件運(yùn)行結(jié)果中的“K-Cluster.pdf”確定最佳聚類個數(shù)，再一次運(yùn)行軟件。

（4）?“-Genenumber.hotmap”,?參數(shù)是指你想要展示在熱圖中的基因個數(shù)。注意：此處如需展示您想要展示的表型內(nèi)容，請把這一部分內(nèi)容放到“-Expression”文件的最前面，并指定個數(shù)。

完成參數(shù)提交后，按下回車鍵，整個程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會給出提示。程序執(zhí)行完畢后，界面會顯示“Program?execution?is?completed”結(jié)束語。

流程圖：

結(jié)果展示：

1.該圖片主要進(jìn)行K值（Cluster.number）的挑選，挑選主要看K值之后的變化斜率是否穩(wěn)定。

2.此圖為樣本群體的PCA聚類圖展示，主要用于觀察幾組分類樣本的向量中心是否可以較好的分離。

3.該圖片為基因表達(dá)值或表型值的熱圖在不同的表型分組中如：聚類分組，年齡分組等，的表達(dá)差異。

4.此圖為K-M生存曲線，其中P值為三個聚類組別之間的顯著差異度，‘Number?at?risk’部分為每組中樣本分布個數(shù)的具體細(xì)節(jié)，‘Number?of?censoring’是樣本分布區(qū)域的具體細(xì)節(jié)展示。

（如非臨床數(shù)據(jù)，則此部分內(nèi)容不進(jìn)行輸出）

5.該文件包括了每一個樣本的聚類分組信息

如需代碼及示例數(shù)據(jù)等文件，請掃碼聊天框回復(fù) “B39”領(lǐng)取！?

寫在文末：

如果您近期想做生信方面的文章而苦于沒有思路，或者不知道如何來入手生信分析，或者兌具體的某一個圖有作圖需求，都可以掃碼咨詢小云，我們有專業(yè)的技術(shù)團(tuán)隊(duì)，生信熱點(diǎn)思路設(shè)計、生信分析、熱點(diǎn)方向生信挖掘等，如有需要，可掃碼下方二維碼了解詳情：

標(biāo)簽：