最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

六類機(jī)器學(xué)習(xí)算法大揭秘

2023-08-03 18:34 作者:SPSSAU官方賬號(hào)  | 我要投稿

歡迎來(lái)到我們的機(jī)器學(xué)習(xí)專題!本文我們將深入探討六種經(jīng)典的機(jī)器學(xué)習(xí)算法:決策樹(shù)、隨機(jī)森林、KNN(K-近鄰算法)、樸素貝葉斯、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。這些算法在解決各種實(shí)際問(wèn)題中發(fā)揮著重要作用,無(wú)論是分類、回歸還是聚類任務(wù),它們都有廣泛的應(yīng)用。

1、決策樹(shù)模型

?(1)簡(jiǎn)單原理說(shuō)明

決策樹(shù)(Decision Tree)常用于研究類別歸屬和預(yù)測(cè)關(guān)系的模型。
比如:是否抽煙、是否喝酒、年齡、體重等4項(xiàng)個(gè)人特征可能會(huì)影響到‘是否患癌癥’,上述4項(xiàng)個(gè)人特征稱作‘特征’,也即自變量(影響因素X),‘是否患癌癥’稱為‘標(biāo)簽’,也即因變量(被影響項(xiàng)Y)。
決策樹(shù)模型時(shí),其可首先對(duì)年齡進(jìn)行劃分,比如以70歲為界,年齡大于70歲時(shí),可能更容易歸類為‘患癌癥’,接著對(duì)體重進(jìn)行劃分,比如大于50公斤為界,大于50公斤時(shí)更可能劃分為‘患癌癥’,依次循環(huán)下去,特征之間的邏輯組合后(比如年齡大于70歲,體重大于50公斤),會(huì)對(duì)應(yīng)到是否患癌癥這一標(biāo)簽上。

?(2)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)說(shuō)明


決策樹(shù)是一種預(yù)測(cè)模型,為讓其有著良好的預(yù)測(cè)能力,因此通常需要將數(shù)據(jù)分為兩組,分別是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)用于建立模型使用,即建立特征組合與標(biāo)簽之間的對(duì)應(yīng)關(guān)系,得到這樣的對(duì)應(yīng)關(guān)系后(模型后),然后使用測(cè)試數(shù)據(jù)用來(lái)驗(yàn)證當(dāng)前模型的優(yōu)劣。通常情況下,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的比例通常為9:1,8:2,7:3,6:4或者5:5(比如9:1時(shí)指所有數(shù)據(jù)中90%作為訓(xùn)練模型使用,余下10%作為測(cè)試模型好壞使用)。
上述中包括模型構(gòu)建和模型預(yù)測(cè)兩項(xiàng),如果訓(xùn)練數(shù)據(jù)得到的模型優(yōu)秀,此時(shí)可考慮將其進(jìn)行保存并且部署出去使用(此為計(jì)算機(jī)工程中應(yīng)用,SPSSAU暫不提供);除此之外,當(dāng)決策樹(shù)模型構(gòu)建完成后可進(jìn)行預(yù)測(cè),比如新來(lái)一個(gè)病人,他是否會(huì)患癌癥及患癌癥的可能性有多高。決策樹(shù)模型可用于特征質(zhì)量判斷,比如上述是否抽煙、是否喝酒、年齡、體重等4項(xiàng),該四項(xiàng)對(duì)于‘是否患癌癥’的預(yù)測(cè)作用重要性大小可以進(jìn)行排名用于篩選出最有用的特征項(xiàng)。

?(3)參數(shù)設(shè)置

決策樹(shù)模型的構(gòu)建時(shí),需要對(duì)參數(shù)進(jìn)行設(shè)置,其目的在于構(gòu)建良好的模型(良好模型的標(biāo)準(zhǔn)通常為:訓(xùn)練數(shù)據(jù)得到的模型評(píng)估結(jié)果良好,并且測(cè)試數(shù)據(jù)時(shí)評(píng)估結(jié)果良好)。
需要特別注意一點(diǎn)是:訓(xùn)練數(shù)據(jù)模型評(píng)估結(jié)果可能很好(甚至準(zhǔn)確率等各項(xiàng)指標(biāo)為100%),但是在測(cè)試數(shù)據(jù)上評(píng)估結(jié)果確很糟糕,此種情況稱為‘過(guò)擬合’。因而在實(shí)際研究數(shù)據(jù)中,需要特別注意此種情況。模型的構(gòu)建時(shí)通常情況下參數(shù)設(shè)置越復(fù)雜,其會(huì)帶來(lái)訓(xùn)練數(shù)據(jù)的模型評(píng)估結(jié)果越好,但測(cè)試效果卻很糟糕,因而在決策樹(shù)構(gòu)建時(shí),需要特別注意參數(shù)的相關(guān)設(shè)置。
關(guān)于決策樹(shù)模型時(shí),通常涉及到以下參數(shù)值,如下:

決策樹(shù)詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

決策樹(shù)幫助手冊(cè)

2、隨機(jī)森林

(1)簡(jiǎn)單原理說(shuō)明

隨機(jī)森林模型實(shí)質(zhì)上是多個(gè)決策樹(shù)模型的綜合,決策樹(shù)模型只構(gòu)建一棵分類樹(shù),但是隨機(jī)森林模型構(gòu)建非常多棵決策樹(shù),相當(dāng)于在重復(fù)決策樹(shù)模型。隨機(jī)森林模型基于隨機(jī)樣本進(jìn)行構(gòu)建,并且在每個(gè)樹(shù)節(jié)點(diǎn)時(shí),考慮到分裂隨機(jī)特征性,因而一般意義上,隨機(jī)森林模型優(yōu)于決策樹(shù)模型(但并不一定,實(shí)際研究中應(yīng)該以數(shù)據(jù)為準(zhǔn))。
隨機(jī)森林模型的原理上,其可見(jiàn)下圖。

(2)參數(shù)設(shè)置

隨機(jī)森林的參數(shù)和指標(biāo)解讀與決策樹(shù)基本一致,如下:

隨機(jī)森林詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

隨機(jī)森林幫助手冊(cè)

3、K-近鄰算法

(1)簡(jiǎn)單原理說(shuō)明

K近鄰KNN(k-nearest neighbor)是一種簡(jiǎn)單易懂的機(jī)器學(xué)習(xí)算法,其原理是找出挨著自己最近的K個(gè)鄰居,并且根據(jù)鄰居的類別來(lái)確定自己的類別情況。

比如紅色點(diǎn),挨著其最近的5個(gè)點(diǎn)(K=5時(shí))如上圖,如果該5個(gè)點(diǎn)中多數(shù)均為A類,那么紅色點(diǎn)就歸為A類。
此處涉及幾個(gè)點(diǎn),一是距離如何計(jì)算,二是K值如何選擇,三是如何歸類。

  • 距離的計(jì)算方式:比如歐式距離、曼哈頓距離等,通常情況下使用歐式距離,其計(jì)算公式如下:歐氏距離d=(y1?x1)2+(y2?x2)2+...+(yn?xn)2

  • K值如何選擇:通常建議K介于3~20之間,且一般為奇數(shù)值,SPSSAU默認(rèn)為5,如果說(shuō)K值太大,容易出現(xiàn)‘過(guò)擬合’現(xiàn)象即結(jié)果看著很好但事實(shí)上不好;如果K值過(guò)小,容易出現(xiàn)擬合現(xiàn)象很糟糕(欠擬合)現(xiàn)象。

  • 如何歸類:上述比如K=5,挨的最近5個(gè)點(diǎn)中有3個(gè)(超過(guò)一半)為A類,那么該點(diǎn)就分為A類,此種分類方式為‘等比投票權(quán)’,即5個(gè)點(diǎn)的權(quán)重完全一致。如果要考慮距離遠(yuǎn)近這一權(quán)重,可以使用‘距離反比投票權(quán)法’。

(2)參數(shù)設(shè)置

關(guān)于K近鄰KNN模型時(shí),通常涉及到以下參數(shù)值,如下:


K-近鄰算法詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

K-近鄰算法幫助手冊(cè)

4、樸素貝葉斯模型

(1)簡(jiǎn)單原理說(shuō)明

樸素貝葉斯模型的原理較為簡(jiǎn)單,其利用貝葉斯概率公式,分別如下:

P(y∣x)=P(y)P(x∣y)P(x)

接著假定各特征屬性獨(dú)立,并且將公式進(jìn)行展示成如下:

P(yi∣x1,x2,?,xd)=P(yi)∏j=1dP(xj∣yi)∏j=1dP(xj)

關(guān)于樸素貝葉斯模型時(shí),其原理理解較為簡(jiǎn)單,但其內(nèi)部算法上有著更多內(nèi)容,感興趣的讀者可參閱下述頁(yè)面,點(diǎn)擊查看。

(2)參數(shù)設(shè)置

關(guān)于樸素貝葉斯參數(shù)上,其特征(自變量X)的數(shù)據(jù)分布對(duì)模型有著較大影響,如下表格說(shuō)明:我哪能吃那么多

  • 如果特征即自變量X全部均為連續(xù)定量數(shù)據(jù),那么選擇高斯分布即可(此為默認(rèn)值);如果特征中即包括連續(xù)定量數(shù)據(jù),又包括定類數(shù)據(jù),建議可對(duì)定類數(shù)據(jù)進(jìn)行啞變量設(shè)置后,選擇高斯分布;

  • 如果說(shuō)特征即自變量X中全部均是定類數(shù)據(jù)且每個(gè)X的類別數(shù)量大于2,此時(shí)可選擇多項(xiàng)式分布;

  • 如果每個(gè)特征全部都是0和1共兩個(gè)數(shù)字,此時(shí)選擇伯努利分布。

樸素貝葉斯詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

樸素貝葉斯幫助手冊(cè)

5、支持向量機(jī)

(1)簡(jiǎn)單原理說(shuō)明

支持向量機(jī)(support vector machines, SVM)是一種二分類模型,所謂二分類模型是指比如有很多特征(自變量X)對(duì)另外一個(gè)標(biāo)簽項(xiàng)(因變量Y),比如‘吸煙’和‘不吸煙’兩類的分類作用關(guān)系。

支持向量機(jī)模型是利用運(yùn)籌規(guī)劃約束求最優(yōu)解,而此最優(yōu)解是一個(gè)空間平面,此空間平面可以結(jié)合特征項(xiàng),將‘吸煙’和‘不吸煙’兩類完全地分開(kāi),尋找該空間平面即是支持向量機(jī)的核心算法原理。支持向量機(jī)模型的原理上,其可見(jiàn)下圖。

比如紅色表示“吸煙”,黃色表示“不吸煙”,那么如何找到一個(gè)平面最大化的將兩類群體分開(kāi),如上圖所示,分開(kāi)有很多種方式,左側(cè)也可以分開(kāi),右側(cè)也能分開(kāi)。但明顯的,右側(cè)會(huì)“分的更開(kāi)”,因而如何尋找到這樣的一個(gè)空間平面,讓標(biāo)簽項(xiàng)各類別最為明顯的分開(kāi),此算法過(guò)程即為支持向量機(jī)。將點(diǎn)分開(kāi)時(shí),離平面最近的點(diǎn)要盡可能的遠(yuǎn),比如右側(cè)時(shí)A點(diǎn)和B點(diǎn)離平面最近,那么算法需要想辦法讓該類點(diǎn)盡可能地遠(yuǎn)離平面,這樣就稱為“分的更好”。左側(cè)時(shí)挨著平面最近的兩個(gè)點(diǎn)離平面太近,所以右側(cè)的分類更好。

(2)參數(shù)設(shè)置

結(jié)合支持向量機(jī)的原理情況,其涉及以下參數(shù),如下:

支持向量機(jī)詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

支持向量機(jī)幫助手冊(cè)

6、神經(jīng)網(wǎng)絡(luò)

(1)簡(jiǎn)單原理說(shuō)明

神經(jīng)網(wǎng)絡(luò)(neural network)是一種模擬人腦神經(jīng)思維方式的數(shù)據(jù)模型。神經(jīng)網(wǎng)絡(luò)有多種,包括BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò),多層感知器MLP等,最為經(jīng)典為神經(jīng)網(wǎng)絡(luò)為多層感知器MLP(Multi-Layer Perception),SPSSAU默認(rèn)使用該模型。

神經(jīng)網(wǎng)絡(luò)的原理上,可見(jiàn)下圖。

原理上,首先輸入特征項(xiàng)X,即放入的自變量項(xiàng),神經(jīng)網(wǎng)絡(luò)模型時(shí),可將特征項(xiàng)X構(gòu)建出‘偽特征’,其結(jié)合‘激活函數(shù)’構(gòu)建出一些‘偽特征項(xiàng)’(即事實(shí)不存在,完全由模型構(gòu)建的特征項(xiàng),并且是無(wú)法解釋的特征項(xiàng)),具體構(gòu)建上,比如為線性激活函數(shù)時(shí)可直觀理解為類似“y=1+2*x1+3*x2+4*x3+…”這樣的函數(shù))。并且構(gòu)建‘偽特征項(xiàng)’可有多個(gè)層次(即‘隱層神經(jīng)元’可以有多層,默認(rèn)是1層),并且每個(gè)層次可以有多個(gè)神經(jīng)元(默認(rèn)是100)。最終由數(shù)學(xué)優(yōu)化算法計(jì)算,得到輸出,即預(yù)測(cè)項(xiàng)。

(2)參數(shù)設(shè)置

結(jié)合神經(jīng)網(wǎng)絡(luò)的原理情況,其涉及以下參數(shù),如下:

除此之外,當(dāng)權(quán)重優(yōu)化方法為sgd或者adam時(shí),可能涉及下述3個(gè)參數(shù)值(權(quán)重優(yōu)化方法為lbfgs牛頓法時(shí)時(shí)不包括),如下:

神經(jīng)網(wǎng)絡(luò)詳細(xì)說(shuō)明及案例操作解讀請(qǐng)點(diǎn)擊查看下方幫助手冊(cè):

神經(jīng)網(wǎng)絡(luò)幫助手冊(cè)

六類機(jī)器學(xué)習(xí)算法大揭秘的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
津市市| 天门市| 定兴县| 唐山市| 余庆县| 绿春县| 长葛市| 新晃| 陇西县| 南汇区| 略阳县| 东丰县| 潞城市| 类乌齐县| 高安市| 潞城市| 叶城县| 荣昌县| 苏尼特左旗| 泸水县| 遂平县| 颍上县| 阜新市| 麻栗坡县| 弥勒县| 宿松县| 威宁| 临洮县| 绥化市| 凉城县| 宜城市| 建平县| 东乡| 沐川县| 晋江市| 焉耆| 乃东县| 密山市| 香格里拉县| 贵阳市| 北安市|