最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

爾云生信代碼|依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進(jìn)行分層聚類分析

2022-08-23 15:57 作者:爾云間  | 我要投稿

科研有捷徑,輸入代碼,一鍵獲取科研成果!就是這么省事,來具體看下有多方便!

搜索http://985.so/a9kb查看全部代碼(目前共計50+持續(xù)新增中),也可以點(diǎn)擊右側(cè)【目錄】,可以看到更多有趣的代碼;真香提示:文末可以知道如何獲取代碼~?


無監(jiān)督聚類是深度學(xué)習(xí)中一種建??蚣埽渲饕抢肒-Means算法進(jìn)行向量特征中心化聚類,該算法最終收斂并得到最后的K個類及類內(nèi)的觀察值。在k=?n(任意正整數(shù))的約束下,K-Means算法最小化了類內(nèi)的距離(內(nèi)聚最大化),最大化了類間距離(分離最大化),最終達(dá)到分類的效果。

在實(shí)際的隊(duì)列或病例對照研究中,主觀的分組會帶來較大的系統(tǒng)誤差,同時對于協(xié)變量的研究有利于探索疾病發(fā)生過程中更深層次的,我們可以利用有效信息將研究群體內(nèi)部的特征進(jìn)行聚類整合研究,將上述特征,此時我們可采用。

就目前的隊(duì)列研究中,對于某種研究特征(有效信息)在某一獨(dú)立研究群體(具有同種研究特征如某種疾病患者群體)中作用的探索方法較多,但均具有一定的主觀分類化的情況,因此,為了能夠更好的從數(shù)據(jù)真實(shí)的角度探索某種特征的變化過程是否對研究群體構(gòu)成分類,從而探索某種特征是否與研究特征(如癌癥)具有一定的相關(guān)性。無監(jiān)督聚類的方法目前是最為合適的一種方案,在實(shí)際的聚類應(yīng)用中,我們通常會考慮使用k-均值和k-中心化算法來進(jìn)行聚類分析,這兩種算法為了保證聚類的質(zhì)量,需要優(yōu)先確定最佳的簇數(shù),并使用輪廓系數(shù)來評估聚類的結(jié)果。這樣的過程就利用向量化的原理將多組特征進(jìn)行相互的比對尋找到最佳的中心向量,完成多維度信息的降維處理,使我們的研究更加簡便化。

本代碼目前主要針對于具有生存數(shù)據(jù)的疾病研究,如腫瘤。代碼是基于無監(jiān)督聚類算法,結(jié)合腫瘤數(shù)據(jù)的基因表達(dá)譜(也可是任意想要研究的表型譜,如甲基化,蛋白組,代謝組,臨床特征)和生存數(shù)據(jù)。只需要輸入表型矩陣以及生存數(shù)據(jù),軟件會自動計算樣本的無監(jiān)督聚類分組以及生存差異分析。同時繪制出K曲線,分組PCA圖,樣本分布條形圖,生存曲線。


使用方法:

Rscript?Cluster.R?-Expression=?-Phenotype=?-cluster.number=??-Genenumber.hotmap=


參數(shù)說明:

USAGE:

Cluster.R?-Expression=-Phenotype=-cluster.number=-Genenumber.hotmap=

PARAMETERS:

-Expressionthe?gene?expression?matrix,?gene?as?column,?sample?as?row,?input?csv?format.

-Phenotypethe?gene?Phenotype?matrix,?sample?as?row,input?csv?format.

Note:?Maintain?a?one-to-one?correspondence?with?the?name?of?Expression,?the?first?two?lines?of?the?file?must?contain?two?fields:"Stge"and"Time".?In?addation,?for?non-clinical?data,?replace?the"Stge"and"Time"columns?with?‘NA’.?In?the?end,?you?only?need?to?pay?attention?to?your?clustering?results,?that?is,?"cluester"?Group.csv"and"Cluster.PCA.pdf.

-cluster.numberthe?number,?Choose?the?expected?classification?index?K?(0-5).

Note:?The?cluster.number?can?be?given?at?the?beginning?of?the?program?at?will,?and?then?you?can?find?the?inflection?point?according?to?the?K-Cluster.?pdf?file?and?enter?the?running?program?again.

-Genenumber.hotmapthe?number,?Select?the?number?of?genes?you?want?to?display?in?the?hotmap.


操作步驟:

  1. 打開命令行界面(Mac?&?Linux?),輸入“Rscript?Cluster.R”調(diào)閱幫助文檔,確定該程序所需的輸入文件,請留意Note部分內(nèi)容,務(wù)必保持一致。

  2. 用戶根據(jù)幫助文檔中的參數(shù)說明內(nèi)容,對參數(shù)進(jìn)行設(shè)置。首先,軟件必須輸入?yún)?shù)有4個:

(1)“-Expression”,此文件均表示表型矩陣文件(此處以TCGA數(shù)據(jù)框腫瘤基因表達(dá)數(shù)據(jù)為例),以基因(表型)為列,樣本為行,保存為csv文件;注:表型矩陣文件中數(shù)據(jù)類型需保持一致,需先進(jìn)行質(zhì)量控制,矩陣中不可出現(xiàn)‘null’等字樣,如有出現(xiàn)請?zhí)鎿Q成‘NA’。

(2)“-Phenotype”,此文件均表示分類表型矩陣文件(此處以TCGA數(shù)據(jù)框腫瘤臨床特征分類數(shù)據(jù)為例,如T,M,N,G,Age,Gander等),

(3)”-cluster.number”,?參數(shù)是指你的理想聚類個數(shù),在第一次運(yùn)行軟件的時候可以輸入0-5以內(nèi)的任意正整數(shù),根據(jù)軟件運(yùn)行結(jié)果中的“K-Cluster.pdf”確定最佳聚類個數(shù),再一次運(yùn)行軟件。

(4)?“-Genenumber.hotmap”,?參數(shù)是指你想要展示在熱圖中的基因個數(shù)。注意:此處如需展示您想要展示的表型內(nèi)容,請把這一部分內(nèi)容放到“-Expression”文件的最前面,并指定個數(shù)。

  1. 完成參數(shù)提交后,按下回車鍵,整個程序即正式開始進(jìn)入執(zhí)行。每步執(zhí)行內(nèi)容都會給出提示。程序執(zhí)行完畢后,界面會顯示“Program?execution?is?completed”結(jié)束語。

流程圖:

結(jié)果展示:

1.進(jìn)KCluster.numberK穩(wěn)。

2.PCA,

3.達(dá),,達(dá)。

4.K-M,P,Number?at?risk數(shù)細(xì)節(jié),Number?of?censoring區(qū)細(xì)節(jié)。

數(shù)據(jù)內(nèi)進(jìn)

5.


如需代碼及示例數(shù)據(jù)等文件,請掃碼聊天框回復(fù) “B39”領(lǐng)取!?

寫在文末:

如果您近期想做生信方面的文章而苦于沒有思路,或者不知道如何來入手生信分析,或者兌具體的某一個圖有作圖需求,都可以掃碼咨詢小云,我們有專業(yè)的技術(shù)團(tuán)隊(duì),生信熱點(diǎn)思路設(shè)計、生信分析、熱點(diǎn)方向生信挖掘等,如有需要,可掃碼下方二維碼了解詳情:




爾云生信代碼|依據(jù)表型數(shù)據(jù)基于無監(jiān)督聚類算法對研究群體進(jìn)行分層聚類分析的評論 (共 條)

分享到微博請遵守國家法律
通榆县| 武夷山市| 新建县| 丹东市| 蕲春县| 历史| 清水县| 沾益县| 乐业县| 昆明市| 香河县| 天峻县| 南宁市| 北辰区| 德安县| 呼伦贝尔市| 衢州市| 商水县| 甘泉县| 时尚| 电白县| 仲巴县| 东明县| 唐河县| 邵阳县| 武鸣县| 蓬溪县| 吉安市| 罗定市| 珠海市| 舞阳县| 莱西市| 德州市| 积石山| 南溪县| 威海市| 故城县| 南郑县| 沈丘县| 乐业县| 岚皋县|