數(shù)據(jù)報告分享|WEKA貝葉斯網(wǎng)絡(luò)挖掘?qū)W校在校人數(shù)影響因素數(shù)據(jù)分類模型
全文鏈接:https://tecdat.cn/?p=33159
原文出處:拓端數(shù)據(jù)部落公眾號
本文著眼普通高等學(xué)校在校學(xué)生人數(shù),提出了不同種類學(xué)校的在校人數(shù)可能存在的影響關(guān)系從而探究教育現(xiàn)狀的因素,建立分類模型,探求這幾個因素間的數(shù)量關(guān)系。
本文試圖幫助客戶通過研究不同種類學(xué)校的在校人數(shù)的關(guān)系,從而挖掘出學(xué)校在校人數(shù)對技校在校人數(shù)是否有影響。
問題分析
本次選取來自廣東省統(tǒng)計年鑒1978年以來的各級各類學(xué)校在校學(xué)生數(shù)數(shù)據(jù)。

并對高等學(xué)校、中等職業(yè)教育學(xué)校? 、技工學(xué)校、? 普通中學(xué)、小學(xué)的人數(shù)進行貝葉斯分類分析,試圖通過分類分析得到不同學(xué)校類型在校人數(shù)之間存在的關(guān)系,從而得出結(jié)論,提出建議。
WEKA?使用流程
WEKA使學(xué)習(xí)應(yīng)用機器學(xué)習(xí)方便,高效和樂趣。這是一個GUI工具,它允許您加載數(shù)據(jù)集,運行算法設(shè)計及運行試驗與統(tǒng)計結(jié)果。
1.?進入軟件
??? 啟動Weka的。這可能涉及發(fā)現(xiàn)它在程序啟動或雙擊該文件weka.jar。這將啟動GUI的Weka選配。
Weka的GUI選擇器可以讓你選擇資源管理器中,實驗者,KnowledgeExplorer和簡單CLI(命令行界面)中的一個。

2.?加載數(shù)據(jù)
??? 該GUI讓您加載數(shù)據(jù)集,運行分類算法。它還提供了其他的功能,如數(shù)據(jù)過濾,聚類,關(guān)聯(lián)規(guī)則提取和可視化,但現(xiàn)在我們不會使用這些功能的。
??? 點擊“打開文件...”按鈕,打開“數(shù)據(jù)”目錄中的數(shù)據(jù)集并雙擊。
??? WEKA提供了一些常見的小機器學(xué)習(xí)數(shù)據(jù)集,你可以用它來練習(xí)上。
3.?進行挖掘
??? 現(xiàn)在你已經(jīng)加載的數(shù)據(jù)集,它的時間來選擇一個機器學(xué)習(xí)算法建模的問題,并作出預(yù)測。
??? 點擊“分類”標(biāo)簽。這是用于運行針對Weka的一個裝載數(shù)據(jù)集的算法的區(qū)域。

點擊“開始”按鈕,運行該算法。
數(shù)據(jù)?預(yù)處理
本次分析的數(shù)據(jù)來自廣東省統(tǒng)計年鑒的各級各類學(xué)校在校學(xué)生數(shù)數(shù)據(jù)。《廣東統(tǒng)計年鑒》(下簡稱《年鑒》)系統(tǒng)收錄了全省及各市、縣(區(qū))在校人數(shù)的統(tǒng)計數(shù)據(jù),以及1978年以來各個主要時期全省一共221條主要統(tǒng)計數(shù)據(jù)。
指標(biāo)選取
本次分析一共選取了5個指標(biāo)221個樣本,分別是:高等學(xué)校、中等職業(yè)教育學(xué)校 、技工學(xué)校、? 普通中學(xué)、小學(xué)。
貝葉斯網(wǎng)絡(luò)
??? 貝葉斯網(wǎng)絡(luò)是一種概率網(wǎng)絡(luò),它是基于概率推理的圖形化網(wǎng)絡(luò),而貝葉斯公式則是這個概率網(wǎng)絡(luò)的基礎(chǔ)。
??? 由乘法公式,我們得到
P (A | B) = P (A, B) / P (B)=(P(B|A)P(A))/P(B)
??? 這就是著名的貝葉斯公式。
??? 貝葉斯公式幾乎是所有概率推理的現(xiàn)代人工智能系統(tǒng)的基礎(chǔ)。這個式子同樣表示一組公式,每個公式處理變量的特定取值。我們還有某些場合要在某個背景證據(jù)e上使用一個更通用版本的條件化公式:

貝葉斯法則是在一個條件概率和2個無條件概率的基礎(chǔ)上計算另一個條件概率。
??? 貝葉斯法則對于回答在某一條證據(jù)的條件約束下的概率問題是非常有用的,而且我們已經(jīng)討論過概率信息經(jīng)常是以P(結(jié)果?|?原因)的形式出現(xiàn)的。
? ????為了解決以上問題,我們利用‘獨立性’。
? 給定第三個隨機變量Z(證據(jù))之后,兩個隨機變量X和Y的條件獨立性的一般定義是:
P(X,Y|Z)=P(X|Z)P(Y|Z)
???? ?也可以用以下形式來表示
P(X|Y,Z)=P(X|Z)
P(Y|X,Z)=P(Y|Z)
??? 因此對于前面講過的決對獨立斷言,允許將全聯(lián)合分布分解成很多更小的分布,對于條件獨立性斷言也是同樣成立的。
??? 通過條件獨立性,將一個大的概率領(lǐng)域分解城一些相互聯(lián)系非常弱的子集,并允許概率系統(tǒng)進行規(guī)模擴展,而且條件獨立性也比決對獨立性斷言更加普遍,稱為素貝葉斯模型。
數(shù)據(jù)準備:
? 首先在weka中打開數(shù)據(jù)

查看每個學(xué)校的人數(shù)分布直方圖

數(shù)據(jù)預(yù)處理:
為了消除數(shù)據(jù)量綱的變化,數(shù)據(jù)標(biāo)準化
然后將數(shù)據(jù)進行離散化 ,分成幾個不同等級

貝葉斯模型訓(xùn)練:
建立貝葉斯模型,訓(xùn)練模型:

將技工學(xué)校的人數(shù)作為預(yù)測變量
?實驗結(jié)果
十折交叉驗證

方法的比較
為了進行對比分析,本文選用準確率(Precision)、召回率(Recall)和覆蓋率(Coverage)度量。
推薦結(jié)果的召回率定義為:

推薦結(jié)果的準確率定義為:

覆蓋率(Coverage)描述的是一個推薦系統(tǒng)對物品長尾的發(fā)掘能力。推薦系統(tǒng)的覆蓋率可以通過下面的公式計算:

得到每個類別的準確率 召回率 roc等結(jié)果:

混淆矩陣

對模型進行優(yōu)化

每個類別的準確度和召回率等信息

混淆矩陣

對分類結(jié)果進行可視化

從散點圖來看,可以看到不同顏色代表不同技工學(xué)校的人數(shù)分類??v軸代表預(yù)測人數(shù),橫軸代表實際人數(shù)。由于預(yù)測人數(shù)分布在y=x的直線上,因此可以認為預(yù)測人數(shù)等于實際人數(shù),說明模型的預(yù)測效果良好。
由上圖的比較可以看到,本文使用核函數(shù)進行改進后的方法的統(tǒng)計指標(biāo)均明顯優(yōu)于各個子預(yù)測方法,準確度分別提高了 34%,召回率將對于之前算法提高為36% ,總體來說有明顯的提高。
結(jié)論
從模型的結(jié)果來看,不同種類的學(xué)校的在校人數(shù)之間存在一定的聯(lián)系。通過貝葉斯網(wǎng)絡(luò)模型可以利用年份小學(xué),初中等在校人數(shù)來預(yù)測技校的在校人數(shù)的數(shù)量,因此長遠來看,我們可以通過不同學(xué)校的在校人數(shù)來預(yù)測未來人數(shù)的發(fā)展趨勢。同時說明小學(xué)、初中的在校人數(shù)會影響技工學(xué)校的在校人數(shù),同時技工學(xué)校人數(shù)和大學(xué)在校人數(shù)也有關(guān)系。高中畢業(yè)之后有些人會選擇去技工學(xué)校學(xué)習(xí)專業(yè)技能,有些人會選擇去高校深造,他們之間存在負相關(guān)關(guān)系,同時良好的初中小學(xué)的教育也會影響本科在校人數(shù),因此對學(xué)生的義務(wù)教育也是相當(dāng)重要的。
同時,在未來的研究中,還要結(jié)合辦學(xué)條件、教學(xué)質(zhì)量、學(xué)校內(nèi)部結(jié)構(gòu)等方面的因素來對學(xué)校的因素進行更深程度的研究。

?最受歡迎的見解
1.matlab使用貝葉斯優(yōu)化的深度學(xué)習(xí)
2.matlab貝葉斯隱馬爾可夫hmm模型實現(xiàn)
3.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真
4.R語言中的block Gibbs吉布斯采樣貝葉斯多元線性回歸
5.R語言中的Stan概率編程MCMC采樣的貝葉斯模型
6.R語言貝葉斯Poisson泊松-正態(tài)分布模型分析職業(yè)足球比賽進球數(shù)
7.R語言使用貝葉斯 層次模型進行空間數(shù)據(jù)分析
8.R語言隨機搜索變量選擇SSVS估計貝葉斯向量自回歸(BVAR)模型
9.matlab貝葉斯隱馬爾可夫hmm模型實現(xiàn)