數(shù)學(xué)建模數(shù)據(jù)分析題解題常用流程與模型
1.數(shù)據(jù)預(yù)處理
這一步是針對(duì)數(shù)據(jù)中的異常值和缺失值做出清洗和補(bǔ)充,常見的缺失值填充方法有:剔除法、均值法、最小鄰居法等等,異常值通常是直接剔除。但是一般大賽提供的數(shù)據(jù)都是比較正規(guī)和完善的不會(huì)存在缺失值和異常值,所以這一步基本可以省略。
2.數(shù)據(jù)分析
在我們建模之前一定要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,依照數(shù)據(jù)分析的結(jié)果來建模,這樣才能保證我們模型最終的結(jié)果是合理的、完善的;其次一篇正規(guī)的建模論文絕對(duì)不是上來就講解模型,而是先要分析數(shù)據(jù),從分析中引出我們的模型這樣才顯得有理有據(jù);最后數(shù)據(jù)分析這一部分能可視化數(shù)據(jù),在論文中放上幾張我們可視化的圖片能使我們的文章更加美觀更加有說服力。
那么常見的數(shù)據(jù)分析有以下幾種:
2.1.統(tǒng)計(jì)性描述
統(tǒng)計(jì)性描述就是用一些表格和常見的圖形(如折線、柱狀、餅圖)來描繪這批數(shù)據(jù)的均值、中位數(shù)、方差、偏度、峰度以及集中趨勢(shì)和離散趨勢(shì)。
2.2.正態(tài)檢驗(yàn)
假設(shè)檢驗(yàn)中用的比較多的是正態(tài)檢驗(yàn),很多模型在使用時(shí)都要求數(shù)值服從或近似服從正態(tài)分布,所以在建模前需要進(jìn)行正態(tài)性檢驗(yàn)。一般地,進(jìn)行正態(tài)檢驗(yàn)都是使用spss做P-P圖、Q-Q圖。spss如何做P-P圖、Q-Q圖的方法如下,這里就不展開細(xì)講了。
2.3.回歸分析
2.3.1一元線性回歸分析
分析一個(gè)自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。
2.3.2多元線性回歸分析
分析多個(gè)自變量X與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量Y或其殘差必須服從正態(tài)分布。使用spss做線性回歸分析
二.常用模型:
1.常用易懂的機(jī)器學(xué)習(xí)方向模型:
分類模型:決策樹,樸素貝葉斯分類,支持向量機(jī)(SVM),最近領(lǐng)分類(KNN)
聚類模型:K-Means
關(guān)聯(lián)分析:Apriori
連接模型:PageRank
2.評(píng)價(jià)類常用模型
層次分析法、灰色關(guān)聯(lián)度分析、神經(jīng)網(wǎng)絡(luò)綜合評(píng)價(jià)法
3.預(yù)測(cè)類常用模型
1.樸素估計(jì)
2.簡(jiǎn)單平均
3.滑動(dòng)平均
4.簡(jiǎn)單指數(shù)平滑