使用kohonen包進(jìn)行SOM分析二

對(duì)大數(shù)據(jù)集而言,實(shí)現(xiàn)數(shù)據(jù)集的準(zhǔn)確分類(lèi)已成了一個(gè)特別重要的議題。Kohonene包作為一個(gè)優(yōu)秀的用于SOM分析的包,除了提供用于可以建立SOM模型的函數(shù)外,也提供了許多將SOM分類(lèi)結(jié)果進(jìn)行可視化的函數(shù)。因此,本文將沿著上一篇推文的內(nèi)容(kohonen包的函數(shù)、安裝以及所采用的SOM分析原理)繼續(xù)介紹如何使用該包實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行SOM模型建立和對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。
1?數(shù)據(jù)分析
1.1 som函數(shù)
上一篇推文中已經(jīng)介紹了使用kohonen包進(jìn)行SOM分析的三個(gè)函數(shù),這里就簡(jiǎn)單介紹了何種數(shù)據(jù)格式可以用于kohonen包的分析。
第一,加載相應(yīng)的包(Rcpp包用于歐式距離的計(jì)算)。
第二,加載wines數(shù)據(jù),設(shè)置好隨機(jī)數(shù)種子(方便重現(xiàn)數(shù)據(jù)),并調(diào)用som函數(shù)對(duì)標(biāo)準(zhǔn)化后的wines數(shù)據(jù)進(jìn)行SOM模型的建立。
通過(guò)str函數(shù),讀者可以了解到wines的數(shù)據(jù)是二維的,為177*13的二維矩陣。對(duì)于建立好的SOM模型進(jìn)行總結(jié)(summary函數(shù)),讀者可以發(fā)現(xiàn)訓(xùn)練的layer層僅為1,距離的算法是平方和計(jì)算,所有樣本與地圖中最近的單位的平均距離為3.586。而為進(jìn)一步深挖各個(gè)元素在模型中的分類(lèi)結(jié)果,讀者可以通過(guò)調(diào)用模型即som.wines對(duì)象的unit.classif和distances屬性分為獲得各個(gè)樣本所歸屬的神經(jīng)元與各個(gè)樣本與其獲勝單元的距離。
1.2 xyf函數(shù)
從下面的代碼中我們可以看出,nir是包括四個(gè)list的數(shù)據(jù)集。其中一個(gè)數(shù)據(jù)集(training)用于指明哪些元素是用于訓(xùn)練SOM模型。在本段代碼中,通過(guò)將nir的spectra列表和composition列表中用于訓(xùn)練的元素(兩個(gè)數(shù)據(jù)集元素呈一一對(duì)應(yīng)的關(guān)系)分別分配到X和Y兩個(gè)對(duì)象中,從而進(jìn)行SOM訓(xùn)練。
通過(guò)str函數(shù),讀者可以了解到nir的數(shù)據(jù)是四維的,分別包含95個(gè)元素。對(duì)于建立好的SOM模型進(jìn)行總結(jié)(summary函數(shù)),讀者可以發(fā)現(xiàn)訓(xùn)練的layer層僅為2,距離的算法是平方和計(jì)算,所有樣本與地圖中最近的單位的平均距離為0。與som函數(shù)一致,讀者可以通過(guò)調(diào)用模型即nirnet的unit.classif和distances屬性分為獲得各個(gè)樣本所歸屬的神經(jīng)元與各個(gè)樣本與其獲勝單元的距離。
1.3 supersom函數(shù)
通過(guò)下面代碼,我們發(fā)現(xiàn)yeast是包含七個(gè)集合的數(shù)據(jù)集,每個(gè)集合包含800個(gè)元素。而在本段代碼中,所有集合都被用于訓(xùn)練SOM模型。
接下來(lái),我們開(kāi)始建立SOM模型。對(duì)于SOM模型的總結(jié)(summary函數(shù))可以看出,我們的訓(xùn)練層為兩層,計(jì)算聚類(lèi)的算法是平方和(七個(gè)),tanimoto相關(guān)系數(shù)用來(lái)衡量?jī)蓚€(gè)集合的相關(guān)性,與地圖中與地圖中最近的單位的平均距離為2.196。進(jìn)一步深挖各個(gè)元素在模型中的分類(lèi)結(jié)果,我們可以通過(guò)unit.classif和distances進(jìn)行展示。其中unit.classif展示的是各個(gè)樣本所歸屬的簇,而distances展示的是各個(gè)樣本與其獲勝單元的距離。
通過(guò)str函數(shù),讀者可以了解到y(tǒng)east的數(shù)據(jù)是四維的,分別包含800個(gè)元素。對(duì)于建立好的SOM模型進(jìn)行總結(jié)(summary函數(shù)),讀者可以發(fā)現(xiàn)訓(xùn)練的layer層僅為7個(gè),距離的算法是平方和計(jì)算,所有樣本與地圖中最近的單位的平均距離為2.195。與som函數(shù)一致,讀者可以通過(guò)調(diào)用模型即yeast.supersom的unit.classif和distances屬性分為獲得各個(gè)樣本所歸屬的神經(jīng)元與各個(gè)樣本與其獲勝單元的距離。
2?新數(shù)據(jù)預(yù)測(cè)
對(duì)于許多數(shù)據(jù)研究人員而言,模型的建立是為了實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)。對(duì)于kohonen包而言,SOM模型建立之后,人們就可以在這個(gè)模型的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。如下面的代碼所示:
預(yù)測(cè)的結(jié)果我們通過(guò)som_wines_prediction$unit.classif的數(shù)據(jù)進(jìn)行展現(xiàn)
3?小結(jié)
結(jié)合上一篇推文,我們通過(guò)原理介紹和代碼應(yīng)用兩個(gè)環(huán)節(jié)對(duì)SOM模型進(jìn)行初步的解釋。但是,SOM模型建立和新數(shù)據(jù)的預(yù)測(cè)只是論文的第一步,如何將建立的模型進(jìn)行可視化則是下一篇推文中重點(diǎn)需要介紹的。
三 慣例小結(jié)
具體的前后兩篇內(nèi)容可見(jiàn)官方WX號(hào)。
本公眾號(hào)開(kāi)發(fā)的相關(guān)軟件,Multi-omics Hammer軟件和Multi-omics Visual軟件歡迎大家使用。文末是本公眾號(hào)在其他平臺(tái)的賬戶,也歡迎大家關(guān)注并多提意見(jiàn)。
簡(jiǎn)書(shū):WJ的生信小院
公眾號(hào):生信小院
博客園:生信小院
最后,也歡迎各位大佬能夠在本平臺(tái)上:1傳播和講解自己發(fā)表的論文;2:發(fā)表對(duì)某一科研領(lǐng)域的看法;3:想要達(dá)成的合作或者相應(yīng)的招聘信息;4:展示自己以尋找博后工作或者博士就讀的機(jī)會(huì);5:博導(dǎo)提供博后工作或者博士攻讀機(jī)會(huì),都可以后臺(tái)給筆者留言。希望本平臺(tái)在進(jìn)行生信知識(shí)分享的同時(shí),能夠成為生信分析者的交流平臺(tái),能夠?qū)崿F(xiàn)相應(yīng)的利益互補(bǔ)和雙贏(不一定能實(shí)現(xiàn),但是夢(mèng)想總得是有的吧)。
另外,怎么說(shuō)呢,投。。。。。。幣也可,不強(qiáng)求,但奢求?


