最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

樸素貝葉斯模型

2023-06-29 13:49 作者:SPSSAU官方賬號(hào)  | 我要投稿

SPSSAU-在線SPSS分析軟件

樸素貝葉斯模型

貝葉斯模型是利用先貝葉斯定理進(jìn)行計(jì)算的一種機(jī)器學(xué)習(xí)模型,并且此處涉及先驗(yàn)概率和后驗(yàn)概率。比如我們都知道去賭場(chǎng)會(huì)十賭九輸,此是以前的經(jīng)驗(yàn),即為先驗(yàn)概率,也或者大家都知道拋硬幣時(shí)上下面第一次都是1/2概率,這均為先驗(yàn)概率;如果發(fā)現(xiàn)一個(gè)人準(zhǔn)備跳樓,那么此時(shí)他是因?yàn)橘€博導(dǎo)致的概率是多少?此為后驗(yàn)概率。有了先驗(yàn)概率和后驗(yàn)證概率理解,結(jié)合貝葉斯定量即可計(jì)算出概率信息值。

接著,樸素貝葉斯是基于貝葉斯定量,并且加上條件(特征之間獨(dú)立)的一種模型。此處特征屬性之間獨(dú)立是指比如:有100個(gè)數(shù)據(jù),第1行數(shù)據(jù)與第2行,第3行等其它任意行數(shù)據(jù)之間并沒有關(guān)系,此前提條件非常重要,但現(xiàn)實(shí)中較難成立,但這并沒有妨礙其的廣泛使用,可能原因在于樸素貝葉斯模型通于分類問題處理,其內(nèi)部算法上會(huì)關(guān)注于條件概率排序并非具體概率數(shù)字,因而其具有一定容錯(cuò)能力,并且特征屬性之間假如有著關(guān)系并不完全獨(dú)立,其內(nèi)部可能存在相關(guān)抵消現(xiàn)象。整體上看,樸素貝葉斯模型原理較為簡(jiǎn)單,且應(yīng)用較為廣泛,比如輸入法時(shí)可能會(huì)進(jìn)行糾錯(cuò)功能處理,也或者垃圾郵件的識(shí)別等。

樸素貝葉斯模型案例

1 背景

案例數(shù)據(jù)依舊采用‘鳶尾花分類數(shù)據(jù)集’,其數(shù)據(jù)集為150個(gè)樣本,包括4個(gè)特征屬性(4個(gè)自變量X),標(biāo)簽為鳶尾花卉類別,其分為3個(gè)類別分別是剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花(下稱A、B、C三類)。

2 理論

樸素貝葉斯模型的原理較為簡(jiǎn)單,其利用貝葉斯概率公式,分別如下:

接著假定各特征屬性獨(dú)立,并且將公式進(jìn)行展示成如下:

關(guān)于樸素貝葉斯模型時(shí),其原理理解較為簡(jiǎn)單,但其內(nèi)部算法上有著更多內(nèi)容,感興趣的讀者可參閱下述頁(yè)面,點(diǎn)擊查看。

https://scikit-learn.org/stable/modules/naive_bayes.html

關(guān)于樸素貝葉斯參數(shù)上,其特征(自變量X)的數(shù)據(jù)分布對(duì)模型有著較大影響,如下表格說明:

如果特征即自變量X全部均為連續(xù)定量數(shù)據(jù),那么選擇高斯分布即可(此為默認(rèn)值);如果說特征即自變量X中全部均是定類數(shù)據(jù)且每個(gè)X的類別數(shù)量大于2,此時(shí)可選擇多項(xiàng)式分布。如果每個(gè)特征全部都是0和1共兩個(gè)數(shù)字,此時(shí)選擇伯努利分布。如果特征中即包括連續(xù)定量數(shù)據(jù),又包括定類數(shù)據(jù),建議可對(duì)定類數(shù)據(jù)進(jìn)行啞變量設(shè)置后,選擇高斯分布。

關(guān)于關(guān)于啞變量可點(diǎn)擊查看。

http://spssau.com/front/spssau/helps/otherdocuments/dummy.html

3 操作

本例子操作如下:

訓(xùn)練集比例默認(rèn)選擇為:0.8即80%(150*0.8=120個(gè)樣本)進(jìn)行訓(xùn)練樸素貝葉斯模型,余下20%即30個(gè)樣本(測(cè)試數(shù)據(jù))用于模型的驗(yàn)證。需要注意的是,此處不進(jìn)行處理也可以,尤其是自變量X中有定類數(shù)據(jù)是,建議默認(rèn)不進(jìn)行處理。

接著對(duì)參數(shù)設(shè)置如下:

本案例時(shí)四個(gè)自變量X(特征項(xiàng))均為連續(xù)數(shù)據(jù),因而默認(rèn)為高斯分布即可;如果數(shù)據(jù)中包括定類數(shù)據(jù),建議參考上一部分內(nèi)容說明。

4 SPSSAU輸出結(jié)果

SPSSAU共輸出5項(xiàng)結(jié)果,依次為基本信息匯總,訓(xùn)練集或測(cè)試集模型評(píng)估結(jié)果,測(cè)試集結(jié)果混淆矩陣,模型匯總表和模型代碼,如下說明:

上述表格中,基本信息匯總表格展示因變量Y的分類數(shù)據(jù)分布情況,接著展示訓(xùn)練集和測(cè)試集效果情況,并且單獨(dú)提供測(cè)試集數(shù)據(jù)混淆判斷矩陣,進(jìn)一步分析測(cè)試數(shù)據(jù)的正確效果等,模型匯總表格展示整體模型參數(shù)情況,并且提供sklean進(jìn)行樸素貝葉斯模型構(gòu)建的核心代碼。

5文字分析

上表格中分別針對(duì)訓(xùn)練集和測(cè)試集,提供四個(gè)評(píng)估指標(biāo),分別是精確率、召回率、f1-scrore、準(zhǔn)確率,以及平均指標(biāo)和樣本量指標(biāo)等,如下表格說明:

一般來說,f1-score指標(biāo)值最適合,因?yàn)槠渚C合精確率和召回率兩個(gè)指標(biāo),并且可查看其平均值(綜合)指標(biāo),本案例為0.98,并且測(cè)試數(shù)據(jù)的表現(xiàn)上為0.93,意味著評(píng)估效果良好。

進(jìn)一步地,可查看測(cè)試數(shù)據(jù)的‘混淆矩陣’,即模型預(yù)測(cè)和事實(shí)情況的交叉集合,如下圖:

‘混淆矩陣’時(shí),右下三角對(duì)角線的值越大越好,其表示預(yù)測(cè)值和真實(shí)值完全一致。本測(cè)試數(shù)據(jù)中有2個(gè)樣本被判斷類別出錯(cuò),整體模型較優(yōu)。

最后針對(duì)模型匯總表,其展示構(gòu)建樸素貝葉斯模型各項(xiàng)參數(shù)設(shè)置,上表格中單獨(dú)有輸出平滑處理alpha值,當(dāng)alpha=1.0時(shí),稱作Laplace平滑,當(dāng)0時(shí),稱作Lidstone平滑,alpha=0時(shí),不做平滑。最后,SPSSAU輸出使用python中slearn包構(gòu)建本次樸素貝葉斯模型的核心代碼如下:

model = GaussianNB(alpha=1.0) ? ?

model.fit(x_train, y_train)

6 剖析

涉及以下幾個(gè)關(guān)鍵點(diǎn),分別如下:

  • 樸素貝葉斯模型時(shí)是否需要標(biāo)準(zhǔn)化處理?

樸素貝葉斯模型時(shí),其并不涉及距離等計(jì)算,不關(guān)注于數(shù)據(jù)的量綱情況,而只關(guān)注于各數(shù)據(jù)情況下的概率情況,因而通常不需要做任何處理。

  • 訓(xùn)練集比例應(yīng)該選擇多少?

如果數(shù)據(jù)量很大,比如1萬,那么訓(xùn)練集比例可以較高比如0.9,如果數(shù)據(jù)量較小,此時(shí)訓(xùn)練集比例選擇較小預(yù)留出較多數(shù)據(jù)進(jìn)行測(cè)試即可。

  • 保存預(yù)測(cè)值

保存預(yù)測(cè)值時(shí),SPSSAU會(huì)新生成一個(gè)標(biāo)題用于存儲(chǔ)模型預(yù)測(cè)的類別信息,其數(shù)字的意義與模型中標(biāo)簽項(xiàng)(因變量Y)的數(shù)字保持一致意義。

  • SPSSAU進(jìn)行樸素貝葉斯模型時(shí)提示數(shù)據(jù)質(zhì)量異常?

當(dāng)前樸素貝葉斯模型支持分類任務(wù),需要確保標(biāo)簽項(xiàng)(因變量Y)為定類數(shù)據(jù),如果為定量連續(xù)數(shù)據(jù),也或者樣本量較少(或者非會(huì)員僅分析前100個(gè)樣本)時(shí)可能出現(xiàn)無法計(jì)算因而提示數(shù)據(jù)質(zhì)量異常。

樸素貝葉斯模型的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
鹤岗市| 秦皇岛市| 门源| 东城区| 淮滨县| 金溪县| 宝丰县| 明水县| 惠州市| 白城市| 兴业县| 东平县| 射阳县| 牙克石市| 新昌县| 柳河县| 荔浦县| 马关县| 文安县| 清涧县| 来凤县| 扬州市| 皮山县| 呈贡县| 合川市| 托克托县| 榆社县| 志丹县| 甘洛县| 沧州市| 元氏县| 顺昌县| 鸡泽县| 哈密市| 搜索| 博白县| 沅陵县| 沂南县| 鄂温| 咸丰县| 梁平县|