最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

數(shù)據(jù)分析方法(4)——時序分析

2023-03-07 19:55 作者:改擬稱已存在  | 我要投稿

時間序列分析的方法有許多,深度學(xué)習中有LSTM算法,機器學(xué)習中有XGBoost算法,這里我們主要討論經(jīng)典的時間序列算法ARIMA算法。

時間序列指的是一系列時刻所對應(yīng)的離散的一組觀測變量x,且這組變量與時間變化呈現(xiàn)較大的關(guān)系即f=x(t),時序分析就是根據(jù)過往收集到的信息預(yù)測未來的某一時刻的觀測變量值。


一、適用條件

ARIMA模型要求數(shù)據(jù)滿足平穩(wěn)性非白噪聲

原因為ARIMA模型的原理可以簡化為Y_%7Bt%2B1%7D%20%3DY_%7Bt%7D%20%2BR,簡單來說可以理解為每一天都沒有什么大變化,那么明天的情況就應(yīng)該是今天的情況在加上一個隨機誤差產(chǎn)生的。因此平穩(wěn)性就是要求每一天的變化與前一天的變化基本成線性關(guān)系,不能是平方或?qū)?shù)等更為復(fù)雜的關(guān)系;白噪聲就是再要求每天的數(shù)據(jù)與之間的數(shù)據(jù)有關(guān),并非單純隨機的一個結(jié)果。


二、平穩(wěn)性要求

時間序列的平穩(wěn)性分為嚴平穩(wěn)弱平穩(wěn)

嚴平穩(wěn):對于一切時間間隔k和時間點t_%7B1%7D%E3%80%81%20t_%7B2%7D...t_%7Bn%7D%20均存在Y_%7Bt1%7D%E3%80%81%20Y_%7Bt2%7D....Y_%7Btn%7DY_%7Bt1%2Bk%7D%E3%80%81%20Y_%7Bt2%2Bk%7D....Y_%7Btn%2Bk%7D的分布均相同,則稱Y_%7Bt%7D嚴平穩(wěn)。簡單地可以理解為,在每一個時刻與之前任意時刻的檢測值均相差一個固定值。

弱平穩(wěn):滿足均值函數(shù)在所有時間上為常數(shù)(或變化不大);任意兩點的相關(guān)系數(shù)只與間隔有關(guān)與起始點無關(guān),不嚴謹?shù)乜梢岳斫鉃?img type="latex" class="latex" src="http://api.bilibili.com/x/web-frontend/mathjax/tex?formula=X(t%2Bk)-X(t)%3Df(k)" alt="X(t%2Bk)-X(t)%3Df(k)">而且這個差值與初始值x(t)無關(guān)。

一般地,由于嚴平穩(wěn)的數(shù)據(jù)都很難得到,所以數(shù)據(jù)得到弱平穩(wěn)或處理后得到弱平穩(wěn)就可以適用ARIMA算法了。


三、平穩(wěn)性檢驗

數(shù)據(jù)平穩(wěn)性檢驗一般采用ADF算法(當然也可以憑肉眼直接看 (^?^)),也叫作單位根檢驗。其全稱叫作Augmented Dickey-Fuller test即 增廣?Dickey-Fuller檢驗。

1、原理

假設(shè)一個時序分析的回歸模型結(jié)果為X(t%2Bk)%3D%5Cbeta*%20X(t)%2Bw,前面我們說在弱平穩(wěn)狀態(tài)下我們希望每個時間的測量值均與初始值X(t)無關(guān),可以發(fā)現(xiàn)當β=1時,每一個時間的值均與其之前的值有關(guān),因此數(shù)據(jù)不平穩(wěn),只有當β<1時才能將前述的影響主鍵削平,數(shù)據(jù)平穩(wěn)。

2、實現(xiàn)

ADF檢驗也是依賴于假設(shè)檢驗進行實現(xiàn)的(原假設(shè)H0:原序列中至少存在一個單方根),由于算法成熟很多平臺都有直接的包可以調(diào)用,這里以Python為例:

返回的結(jié)果為(adf,pvalue,usedlag,nobs,icbest,resstore)

adf: t檢驗的檢驗統(tǒng)計量

pvalue:置信區(qū)間

usedlag:使用的滯后數(shù)

nobs:使用的觀測值數(shù)目

icbest:完整的假設(shè)回歸值

resstore:結(jié)果的dummy

舉例:

(-15.436,2.906e-28,0,198,{'5%':-2.876,'1%':-3.464,'10%':-2.575},1165.155)

顯然-15.436<5%的拒絕域-2.876,且p值也很小因此要拒絕原假設(shè),該序列平穩(wěn)。


四、數(shù)據(jù)穩(wěn)態(tài)化

當數(shù)據(jù)為非穩(wěn)定的序列,可以通過差分的方式將序列穩(wěn)定化(順帶提一句ARIMA中的I就代表差分,一般差分的階數(shù)用d表示),差分即為由t時刻的值減去t-1時刻的值,此時獲得的新序列就是原序列的一階差分;此序列再進行一次差分運算獲得的新序列就是原序列的二階差分,以此類推經(jīng)過d次差分后序列平穩(wěn)就是d階差分。

一般地,d=1進行一次差分即可,每進行一次差分原序列都會損失一定的數(shù)據(jù)。


五、自相關(guān)系數(shù)(ACF)和偏自相關(guān)系(PACF)

1、概念

自相關(guān)系數(shù):前k時間間隔的值X(t-k)對現(xiàn)在時刻X(t)產(chǎn)生的影響,即比較X(t-k)與X(t)的相關(guān)程度。公式為:

%5Crho%20_%7Bk%7D%3D%5Cfrac%7BCov(X_%7Bt%7D%2CX_%7Bt-k%7D)%7D%7B%5Csigma%20_%7Bx%7D%20%5E2%20%7D%20%20

如果時序分析是p階的自相關(guān)的,即當前的X(t)受到前p個值影響,這樣的模型成為AR(p):

偏自相關(guān)系數(shù):前k時間間隔的值X(t-k)對現(xiàn)在時刻X(t)產(chǎn)生的影響,但要去除X(t)與X(t-k)之間的X(t-1)至X(t-k+1)的k個數(shù)的影響。公式為:

由于X(t)不僅僅只對X(t-k)產(chǎn)生影響,也會對X(t+1)等產(chǎn)生影響,自相關(guān)系數(shù)相當于把這些影響因素累加了,而偏相關(guān)系數(shù)是排出了累加的影響,直接判斷二者之間的相關(guān)程度。

[注:雖然我們希望序列是平穩(wěn)的,即X(t)不產(chǎn)生影響,但實際上很難,平穩(wěn)只是希望這樣的影響程度很弱即可]

如果時序分析受到前q階偏相關(guān)影響,即X(t)與前q個值的移動平均有關(guān),這樣的模型稱為MA(q):

X(t)%3D%5Ctheta%20_%7Bt-1%7D%5Cmu%20_%7Bt-1%7D%2B%5Ctheta%20_%7Bt-2%7D%5Cmu%20_%7Bt-2%7D%2B...%2B%5Ctheta%20_%7Bt-q%7D%5Cmu%20_%7Bt-q%7D%2B%5Cmu%20_%7Bt%7D

如果時序分析即收到自相關(guān)影響,又收到偏相關(guān)影響,只需要綜合二者即可,模型為ARMA(p,q):

X(t)%3D%5Crho%20%20_%7Bt-1%7Dx%20_%7Bt-1%7D%2B%5Crho%20%20_%7Bt-2%7Dx%20_%7Bt-2%7D%2B...%2B%5Crho%20%20_%7Bt-p%7Dx%20_%7Bt-p%7D%2B%5Ctheta%20_%7Bt-1%7D%5Cmu%20_%7Bt-1%7D%2B%5Ctheta%20_%7Bt-2%7D%5Cmu%20_%7Bt-2%7D%2B...%2B%5Ctheta%20_%7Bt-q%7D%5Cmu%20_%7Bt-q%7D%2B%5Cmu%20_%7Bt%7D


2、繪圖定階

根據(jù)上述的分析,我們看到確定時序分析需要確定p和q的值,這里我們可以通過繪制acf圖和pacf圖來進行(即繪制X(t)與之前k個點的相關(guān)系數(shù)值),在python中有成熟的方法可以直接調(diào)用:

圖像結(jié)果的判斷如圖:

拖尾:單調(diào)遞減或者震蕩衰減

截尾:在某一階后突然衰減到0附近

舉例,上圖為ACF圖,下圖為PACF圖:

選自:https://blog.csdn.net/qq_41081716/article/details/105805309

在這張圖中ACF拖尾,PACF1階截尾,應(yīng)當選用MA(1)或者說ARMA(0,1)


3、AIC和BIC準則

上述的判斷過程具有主觀偏向性,客觀來說可以使用AIC和BIC準則對參數(shù)選取進行判斷。在已知回歸方程的基礎(chǔ)上判斷參數(shù)選擇的優(yōu)良性并盡量減少過擬合。當AIC和BIC計算結(jié)果最小時,結(jié)果更優(yōu)。

AIC%3D-2In(L)%2B2K

BIC%3D-2In(L)%2BKIn(n)

式中k為模型復(fù)雜度(參數(shù)數(shù)量),L為似然函數(shù),n為樣本數(shù)量,BIC適合于樣本數(shù)量較多的數(shù)據(jù)。

在python中的調(diào)用如下:

結(jié)果將返回AIC和BIC推薦的p、q值。


六、白噪聲檢驗

1、自相關(guān)圖(ACF)

白噪聲檢驗應(yīng)當在平穩(wěn)性檢驗之后就進行,但如果不做直接進行時序分析問題也不大(*′ー`),白噪聲是指序列完全隨機,進行分析的意義不大,根據(jù)定義我們可以看到此時ACF的圖就會呈現(xiàn)出“0階截尾”即只有自己與自己相關(guān)其他都無關(guān)的狀態(tài)。(換句話說不做白噪聲檢驗,進行到這里會發(fā)現(xiàn)自己之前的分析都白費了罷了 ?? ????? )


圖源:https://zhuanlan.zhihu.com/p/430365631


2、Ljung-Box檢驗

總體思路與ACF圖十分相近,我們知道當一個序列為白噪聲時,其延遲任意間隔的自相關(guān)系數(shù)相等且均等于0,因此我們可以構(gòu)造一個假設(shè)檢驗,原假設(shè)H0為所有自相關(guān)系數(shù)相等且等于0。python代碼如下:

式中x為測試序列,lags為測試最大的延遲間隔,boxpierce為是否返回boxpierce測試的值,該測試方法時lb測試的前身,lb測試優(yōu)化了對于小樣本的改進,return_df表示是否返回dataframe還是返回tuple.

結(jié)果返回為(lbstart,lb_pvalue,bp_start,bp_pvalue)分別為lb的檢驗值,p值,bp測試的檢驗值,p值。如果所有的p值始終大于5%,則可以說明為白噪聲,否則就為非白噪聲。


數(shù)據(jù)分析方法(4)——時序分析的評論 (共 條)

分享到微博請遵守國家法律
凤山县| 康保县| 汾西县| 平顺县| 松原市| 察隅县| 溧水县| 绍兴市| 五常市| 怀仁县| 桓仁| 察雅县| 富民县| 盐亭县| 潜江市| 宁海县| 手游| 织金县| 栾川县| 淮南市| 兰坪| 资阳市| 长汀县| 什邡市| 永定县| 武冈市| 阜城县| 淳化县| 荣成市| 新源县| 旌德县| 登封市| 白河县| 建阳市| 夏津县| 仲巴县| 平顺县| 桂阳县| 边坝县| 会泽县| 洛川县|