常用預(yù)測類數(shù)據(jù)分析方法匯總
本文將介紹一些常見的預(yù)測類數(shù)據(jù)分析方法,幫助大家了解它們的原理和適用范圍。我們將探討時(shí)間序列類預(yù)測方法,如指數(shù)平滑法和灰色預(yù)測模型;回歸類預(yù)測方法,包括線性回歸、logistic回歸、非線性回歸等,它們通過建立數(shù)學(xué)模型來預(yù)測數(shù)值結(jié)果;機(jī)器學(xué)習(xí)類預(yù)測方法,如決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等,它們通過學(xué)習(xí)數(shù)據(jù)的模式和關(guān)聯(lián)性來進(jìn)行預(yù)測;還有一些其他的預(yù)測方法如馬爾可夫預(yù)測、ROC曲線等。
一、時(shí)間序列數(shù)據(jù)預(yù)測
時(shí)間序列數(shù)據(jù)是按照時(shí)間順序排列的數(shù)據(jù)集合,例如每天的銷售量、每月的股票價(jià)格等。預(yù)測時(shí)間序列數(shù)據(jù)可以幫助我們了解未來的趨勢(shì)和模式,從而做出更準(zhǔn)確的決策。
比較常用的時(shí)間序列數(shù)據(jù)預(yù)測方法有以下幾種。
接下來,將逐個(gè)進(jìn)行說明。
1、指數(shù)平滑法
指數(shù)平滑法常用于數(shù)據(jù)序列較少時(shí)使用,且一般只適用于中短期預(yù)測。對(duì)于長期趨勢(shì)或復(fù)雜非線性關(guān)系的數(shù)據(jù)可能表現(xiàn)不佳。
指數(shù)平滑可以繼續(xù)拆分為一次平滑、二次平滑、三次平滑;一次平滑法為歷史數(shù)據(jù)的加權(quán)預(yù)測,二次平滑法適用于具有一定線性趨勢(shì)的數(shù)據(jù),三次平滑法適用于具有一定曲線關(guān)系時(shí)使用。如果不設(shè)置平滑方法,SPSSAU將自動(dòng)運(yùn)行三種平滑方法,選擇最優(yōu)效果時(shí)對(duì)應(yīng)的平滑方法。
指數(shù)平滑法中,初始值S0和平滑系數(shù)alpha是兩個(gè)參數(shù),用于確定預(yù)測模型的初始狀態(tài)和對(duì)過去觀察值的權(quán)重。說明如下表:
SPSSAU進(jìn)行指數(shù)平滑法操作如下:
2、灰色預(yù)測模型
灰色預(yù)測模型可針對(duì)數(shù)量非常少(比如僅4個(gè)),數(shù)據(jù)完整性和可靠性較低的數(shù)據(jù)序列進(jìn)行有效預(yù)測。
其利用微分方程來充分挖掘數(shù)據(jù)的本質(zhì),建模所需信息少,精度較高,運(yùn)算簡便,易于檢驗(yàn),也不用考慮分布規(guī)律或變化趨勢(shì)等。但灰色預(yù)測模型一般只適用于短期數(shù)據(jù)、有一定指數(shù)增長趨勢(shì)的數(shù)據(jù)進(jìn)行預(yù)測,不建議進(jìn)行長期預(yù)測。
SPSSAU進(jìn)行灰色預(yù)測模型操作如下:
3、ARIMA預(yù)測
ARIMA模型是最常見的時(shí)間序列預(yù)測分析方法,適用于平穩(wěn)時(shí)間序列數(shù)據(jù)。它包括三個(gè)部分:自回歸(AR)、差分(I)和移動(dòng)平均(MA)。
SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最終給出最佳模型預(yù)測結(jié)果。當(dāng)然,研究人員也可以自行設(shè)置自回歸階數(shù)p,差分階數(shù)d值和移動(dòng)平均階數(shù)q,然后進(jìn)行模型構(gòu)建。
具體來說,ARIMA模型有以下幾個(gè)參數(shù):
SPSSAU進(jìn)行ARIMA預(yù)測操作如下:
4、季節(jié)Sarima模型
季節(jié)Sarima模型是ARIMA模型的一種擴(kuò)展,用于處理具有明顯季節(jié)性變化的時(shí)間序列數(shù)據(jù)。與ARIMA模型類似,季節(jié)ARIMA模型包括自回歸(AR)、差分(I)和移動(dòng)平均(MA)的組合。
SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最終給出最佳模型預(yù)測結(jié)果。當(dāng)然,研究人員也可以自行設(shè)置參數(shù)進(jìn)行手工建模。
具體來說,季節(jié)ARIMA模型有以下幾個(gè)參數(shù):
SPSSAU進(jìn)行季節(jié)Sarima預(yù)測操作如下:
5、VAR模型
在時(shí)間序列進(jìn)行預(yù)測時(shí),
ARIMA可用于單一變量(比如GDP增長率)的預(yù)測,如果需要同時(shí)考慮多個(gè)變量的預(yù)測時(shí)(比如GDP增長率、失業(yè)率、儲(chǔ)蓄率),此時(shí)可以使用VAR模型進(jìn)行多變量預(yù)測。
VAR模型的構(gòu)建流程較為復(fù)雜,如下圖所述:
上述分析步驟和流程僅供參考使用,實(shí)際研究中可能僅需要其中一部分的分析即可。比如很多時(shí)候并不需要關(guān)注殘差自相關(guān)檢驗(yàn)和殘差正態(tài)性檢驗(yàn),也或者有時(shí)對(duì)格蘭杰因果檢驗(yàn)關(guān)注度較少等,具體以研究者實(shí)際研究情況為準(zhǔn)即可。
SPSSAU進(jìn)行VAR模型操作如下:
二、回歸分析方法預(yù)測
回歸分析是一種常用的統(tǒng)計(jì)方法,用于建立變量間的關(guān)系模型,并通過該模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測。以下是一些典型的回歸分析方法,可用于預(yù)測:
接下來,將逐個(gè)進(jìn)行說明。
1、線性回歸
線性回歸分析常用于預(yù)測數(shù)值型數(shù)據(jù)。它基于自變量與因變量之間的線性關(guān)系建立模型,并利用該模型對(duì)未知的因變量進(jìn)行預(yù)測。
2、logistic回歸
logistic回歸分析常用于預(yù)測分類變量數(shù)據(jù)。logistic回歸又可細(xì)分為以下三種:二元logistic回歸、有序logistic回歸和多分類logistic回歸。對(duì)比說明如下:
3、非線性回歸
非線性回歸分析可以用于預(yù)測具有非線性關(guān)系的數(shù)據(jù)。與線性回歸不同,非線性回歸使用非線性方程來擬合數(shù)據(jù)。
比如人口學(xué)增長模型Logistic(S模型),其模式公式為:y
= b1 / (1 + exp(b2 + b3 *
x)),諸如此類非線性關(guān)系(即不是直接關(guān)系)的非線性模型,可使用非線性回歸進(jìn)行研究。SPSSAU當(dāng)前提供約50類非線性函數(shù)表達(dá)式,涵蓋絕大多數(shù)非線性函數(shù)表達(dá)式。
SPSSAU非線性回歸操作如下:
4、Possion回歸
Possion回歸是一種廣義線性模型,通常用于預(yù)測因變量為計(jì)數(shù)型數(shù)據(jù)中事件發(fā)生的次數(shù)。它基于Possion分布假設(shè),將因變量視為服從Possion分布的隨機(jī)變量,并建立與自變量相關(guān)的線性關(guān)系來預(yù)測事件發(fā)生的次數(shù)。
Poisson分布數(shù)據(jù)一定是指每單位內(nèi)的發(fā)生頻數(shù),比如某個(gè)路口每天闖紅燈的汽車數(shù)量;一年內(nèi)每萬人中丟手機(jī)的頻數(shù)等。
5、其他
除了上述介紹的4種類型回歸,日常研究中我們所用到的絕大多數(shù)回歸分析都可以進(jìn)行預(yù)測。比如嶺回歸、lasso回歸、負(fù)二項(xiàng)回歸、主成分回歸等等。有關(guān)其他回歸方法的說明可以登陸SPSSAU查看各個(gè)分析方法的說明。
三、機(jī)器學(xué)習(xí)預(yù)測
機(jī)器學(xué)習(xí)是一種強(qiáng)大的技術(shù),用于從數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,并利用這些知識(shí)進(jìn)行預(yù)測。通過訓(xùn)練算法來自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的模式,并根據(jù)這些模式進(jìn)行未知樣本的預(yù)測。
常用方法及說明如下:
有關(guān)六類機(jī)器學(xué)習(xí)算法說明,上周已經(jīng)寫過詳細(xì)介紹,在此不再進(jìn)行贅述??牲c(diǎn)擊下方文章進(jìn)行學(xué)習(xí):六種機(jī)器學(xué)習(xí)算法大揭秘:從決策樹到神經(jīng)網(wǎng)絡(luò),小白也能輕松掌握!
四、其他
除了以上3大類預(yù)測方法,還有兩種比較特殊的預(yù)測分析方法,馬爾可夫預(yù)測和ROC曲線。
1、馬爾可夫預(yù)測
馬爾可夫預(yù)測是一種基于馬爾可夫鏈的預(yù)測方法。馬爾可夫鏈?zhǔn)且粋€(gè)隨機(jī)過程,具有馬爾可夫性質(zhì),即未來狀態(tài)的概率只取決于當(dāng)前狀態(tài),與過去狀態(tài)無關(guān)。馬爾可夫預(yù)測利用這種性質(zhì)來進(jìn)行未來事件的預(yù)測。
馬爾可夫預(yù)測涉及3個(gè)術(shù)語名詞,如下說明:
SPSSAU馬爾可夫預(yù)測操作如下:
2、ROC曲線
與上述預(yù)測類分析方法不同,ROC曲線并不能直接用于進(jìn)行預(yù)測,而是用于研究X對(duì)Y的預(yù)測準(zhǔn)確率情況。
ROC曲線是一種評(píng)估分類模型性能的工具,它通過繪制分類器在不同閾值下的真陽性率(TPR)和假陽性率(FPR)之間的關(guān)系來展示模型的質(zhì)量。ROC曲線的形狀可以幫助我們理解模型在不同閾值下的表現(xiàn),但它本身并不提供具體的預(yù)測結(jié)果。
ROC曲線如下圖:
曲線越往左上角說明預(yù)測準(zhǔn)確率越高;曲線越往左上角說明曲線下面積越大,即AUC值越大說明預(yù)測準(zhǔn)確率越高。