电竞比分网-中国电竞赛事及体育赛事平台

分享

時(shí)間序列模型:ARIMA

 HUSTKP 2020-07-11

https://www.jianshu.com/p/54d222bbfe0e

本章涉及知識(shí)點(diǎn):

1、時(shí)間序列分析

2、平穩(wěn)時(shí)間序列

3、白噪聲

4、AR自回歸模型

5、MA滑動(dòng)平均模型

6、ARMA模型

7、ARIMA模型

8、差分計(jì)算

9、相關(guān)性分析—協(xié)方差

10、相關(guān)性分析—Pearson相關(guān)系數(shù)

11、時(shí)間序列相關(guān)性分析—ACK和PACK

12、AIC和BIC準(zhǔn)則

13、一階自相關(guān)檢驗(yàn)—DW檢驗(yàn)

14、ARIMA模型的步驟

15、ARIMA模型實(shí)戰(zhàn)案例

一、時(shí)間序列分析

時(shí)間序列:在一段時(shí)間T內(nèi),按照時(shí)間順序測量某個(gè)隨機(jī)變量的取值序列。即

時(shí)間序列

區(qū)別于一般的時(shí)間函數(shù)為

一般的時(shí)間函數(shù)

其中自變量是時(shí)間t,表示在f的作用法則下,將自變量t映射為因變量y

而時(shí)間序列函數(shù)為

時(shí)間序列函數(shù)

其中自變量是Xt的前p個(gè)序列值,表示在f的作用法則下,將自變量Xt的前p個(gè)序列值映射為因變量Xt

綜上分析可知

(1)對于單值函數(shù)f(t),關(guān)心的是時(shí)間t和實(shí)值y的映射關(guān)系

(2)對于時(shí)間序列Xt,關(guān)心的是Xt的前p個(gè)序列值和Xt的映射關(guān)系

二、平穩(wěn)時(shí)間序列

獨(dú)立時(shí)間序列:X_{n+1}對于{X_{1},X_{2},...,X_{n}}均彼此獨(dú)立,即任意X_{t}都不含有X_{n+1}的信息

穩(wěn)定時(shí)間序列:X_{n+1}的信息隱含在其歷史{X_{1},X_{2},...,X_{n}}之中

我們需要由歷史來推測未來,則研究的序列對象是穩(wěn)定時(shí)間序列,其必須滿足:

(1)EX_{t}^{2} < \infty

(2)EX_{t} = \mu

(3)cov(X_{i},X_{j})  =E[(X_{i} - \mu )(X_{j} - \mu )] = \gamma_{i-j}

即穩(wěn)定時(shí)間序列滿足:常量的均值、常量的方差、與時(shí)間t無關(guān)的自協(xié)方差

且對于任意序列X_{i}X_{j},共同平移k步后的序列得到的序列X_{i+k}X_{j+k}具有相同的協(xié)方差,即

cov(X_{i}, X_{j}) = cov(X_{i+k}, X_{j+k})

上式稱為協(xié)方差結(jié)構(gòu)的平移不變性

對于平穩(wěn)序列的任意n階自協(xié)方差矩陣

\Gamma _{n} =  \begin{bmatrix} \gamma_{0}&...  & \gamma_{n-1}\\  ...&  ...& ...\\  \gamma_{n-1}&...  & \gamma_{0}\end{bmatrix}

任意取一個(gè)n維向量a,則

a\Gamma_{n}a^{T} = \sum_{i=1}^n \sum_{j=1}^n  a_{i}  a_{j} \gamma_{i-j}

= \sum_{i=1}^n \sum_{j=1}^n a_{i}  a_{j} E[(X_{i} -\mu  )(X_{j} -\mu  )]

= E[\sum_{i=1}^n \sum_{j=1}^n a_{i}  a_{j} (X_{i} -\mu  )(X_{j} -\mu  )]

= E[\sum_{i=1}^n  a_{i}  (X_{i} -\mu  )^{2}] = var[\sum_{i=1}^n  a_{i}  (X_{i} -\mu  )] \geq 0

則證明平穩(wěn)序列的任意n階自協(xié)方差矩陣是非負(fù)定矩陣

三、白噪聲

白噪聲服從高斯分布,記時(shí)間序列\{X_{t} \}對于任意i和j,如果滿足

 EX_{t} = \mu \ , cov(X_{i}, X_{j}) = \left\{\begin{matrix}\sigma^{2}, \ i = j\\ 0, \ i \neq j\end{matrix}\right.

則時(shí)間序列\{X_{t} \}是一個(gè)白噪聲,記為WN(\mu , \sigma ^2)。

我們一般用白噪聲來驗(yàn)證原始時(shí)間序列和擬合時(shí)間序列的殘差序列

即原始時(shí)間序列為\{X_{t} \},擬合時(shí)間序列為\{Y _{t} \},則殘差序列\{e_{t}  \}為:

\{e_{t}  \} \  = \{X_{t}  \}   -  \{Y_{t}  \}

當(dāng)\{e_{t}  \}近似的滿足白噪聲,則時(shí)間序列模型很好的捕捉了自相關(guān)性

例如:對于隨機(jī)變量U1,U2,...獨(dú)立分布且都在(0,2pi)上均勻分布,假設(shè)時(shí)間序列為:

X_{t} = b\cos(at+U_{t})

則分別計(jì)算EX_{t}^2EX_{t},得

EX_{t}^2 = \frac{b^2}{2\pi}\int_{0}^{2\pi}  \cos(at+u)^2du

= \frac{b^2}{2\pi}\int_{0}^{2\pi}  \frac{1+\cos[2(at+u)]}{2} du

= \frac{b^2}{2\pi}[ \frac{1}{2} \int_{0}^{2\pi}du +  \frac{1}{4} \int_{0}^{2\pi} \cos(2at+2u)d(2at+2u)] = \frac{b^2}{2}

EX_{t} = \frac{2\pi}\int_{0}^{2\pi}  \cos(at+u)du  = 0

則時(shí)間序列\{X_{t}\}是獨(dú)立的WN(0, \frac{b^2}{2} )正態(tài)白噪聲

四、AR自回歸模型

對于任意一個(gè)穩(wěn)定時(shí)間序列\{X_{t}\},當(dāng)滿足如下關(guān)系:

X_{t} = \alpha_{1}X_{t-1}  + \alpha_{2}X_{t-2} + ... + \alpha_{p}X_{t-p} + w_{t}  = \sum_{i=1}^p \alpha_{i}X_{t-i} + w_{t}

\{X_{t}\}為一個(gè)p階的自回歸模型,記為AR(p)模型

AR(p)模型的意義為:

(1)任意一個(gè)t時(shí)刻的序列值 = t時(shí)刻的前p個(gè)序列值的線性組合 + t時(shí)刻的隨機(jī)誤差

(2)以歷史序列為自變量,建立線性模型來預(yù)測未來

五、MA滑動(dòng)平均模型

對于任意一個(gè)穩(wěn)定時(shí)間序列\{X_{t}\},由AR模型得到自回歸系數(shù)的估計(jì)為(\alpha_{1}...\alpha_{p})

\{ \varepsilon_{t }  \}\{X_{t}\}的殘差序列,即

\varepsilon_{t-q} = X_{t} -\sum_{i=1}^p \alpha_{i}X_{t-i}

則當(dāng)滿足如下關(guān)系:

X_{t} =  \beta_{1}\varepsilon_{t-1}  + \beta _{2}\varepsilon_{t-2} + ... + \beta _{q}\varepsilon_{t-q} + w_{t}  = \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}

\{X_{t}\}為一個(gè)q階的滑動(dòng)平均模型,記為MA(q)模型,其中\{ \varepsilon_{t }  \}滿足WN(0, \sigma ^2)白噪聲

MA(q)模型的含義為:

(1)任意一個(gè)t時(shí)刻的序列值 = t時(shí)刻的前q個(gè)序列的白噪聲累加和的線性組合 + t時(shí)刻的隨機(jī)誤差 

(2)以歷史白噪聲為自變量,建立線性模型來預(yù)測未來

六、ARMA模型

將一個(gè)p階的自回歸模型和一個(gè)q階的滑動(dòng)平均模型組合在一起,便得到了一個(gè)階數(shù)為(p,q)的自回歸滑動(dòng)平均模型,記為ARMA(p,q)模型,

X_{t} =  \alpha_{1}X_{t-1} +...+\alpha_{p}X_{t-p}  + \beta_{1}\varepsilon_{t-1}  +...+ \beta _{q}\varepsilon_{t-q} + w_{t}

= \sum_{i=1}^p \alpha_{i}X_{t-i}  + \sum_{i=1}^q \beta_{i}\varepsilon_{t-i} + w_{t}

ARMA(p,q)模型的意義為:

(1)將AR和MA模型的優(yōu)勢線性互補(bǔ)起來

(2)以歷史序列和歷史白噪聲序列為自變量,建立線性模型來預(yù)測未來

七、ARIMA模型

ARIMA模型:對時(shí)間序列\{X_{t}\}進(jìn)行d次差分得到一個(gè)新的差分時(shí)間序列\{Y_{t}\},再對該序列使用ARMA模型,為此ARIMA模型比ARMA模型多了一層思想:差分

八、差分計(jì)算

對于任意一個(gè)時(shí)間序列\{X_{t}\}進(jìn)行d次差分,設(shè)x_{t}是t時(shí)刻\{X_{t}\}的差分值

當(dāng)d=0時(shí),x_{t}  = X_{t}

當(dāng)d=1時(shí),x_{t}  = X_{t}  - X_{t-1}

當(dāng)d=2時(shí),x_{t}  = X_{t}  - X_{t-1}  - (X_{t-1}  - X_{t-2} ) = X_{t}  -2 X_{t-1} + X_{t-2}

一般的,一個(gè)非平穩(wěn)序列經(jīng)過d次差分后,可以轉(zhuǎn)化為平穩(wěn)時(shí)間序列

九、相關(guān)性分析—協(xié)方差

假設(shè)兩個(gè)隨機(jī)變量X和Y滿足未知的概率分布,則我們可以使用協(xié)方差來衡量X和Y之間的相關(guān)性

cov(X, Y) = E[(X-E(X))(Y-E(Y))]

而在實(shí)際應(yīng)用中,由于整體的概率分布未知(無法計(jì)算出數(shù)學(xué)期望),則用X和Y的觀測值來計(jì)算樣本的協(xié)方差,其中\mu_{X}\mu_{Y}分別為X和Y的均值

cov(X, Y) = \frac{1}{n-1} \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})

當(dāng)cov(X, Y)  >0,X和Y正相關(guān),有相同的變化趨勢

當(dāng)cov(X, Y)  <0,X和Y負(fù)相關(guān),有相反的變化趨勢

當(dāng)cov(X, Y)  =0,X和Y沒有線性關(guān)系

用協(xié)方差描述隨機(jī)變量的相關(guān)性,只能做到定性分析,無法做到定量分析,比如:一組身高和體重的協(xié)方差為205.6,這個(gè)數(shù)值是一個(gè)正數(shù),只能說明身高體重具有正相關(guān)型,而并沒有給出其相關(guān)性大小的判斷標(biāo)準(zhǔn)。

因此協(xié)方差具有量綱效應(yīng)

十、相關(guān)性分析—Pearson相關(guān)系數(shù)

為了對隨機(jī)變量的相關(guān)性做定量分析,需要消除協(xié)方差之間的量綱,為此引入Pearson相關(guān)系數(shù)

corr(X,Y) = \frac{E[(X-E(X))(Y-E(Y))]}{\sqrt{var(X)}\sqrt{var(Y)} }=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}}

=\frac{ \sum_{i=1}^n (x_{i}-\mu_{X})(y_{i}-\mu_{Y})}{\sum_{i=1}^n (x_{i}-\mu_{X})\sum_{i=1}^n (y_{i}-\mu_{Y})}

通過X和Y的標(biāo)準(zhǔn)差歸一化X和Y的協(xié)方差,且corr(X,Y) \  \epsilon \  [-1,+1]

當(dāng)corr(X,Y) =1,X和Y正相關(guān)

當(dāng)corr(X,Y) =-1,X和Y負(fù)相關(guān)

當(dāng)corr(X,Y) =0,X和Y沒有線性關(guān)系

當(dāng)0<|corr(X,Y) |<1,X和Y具有一定程度的線性關(guān)系

十一、時(shí)間序列相關(guān)性分析—ACK和PACK

由于時(shí)間序列的自變量是一維的,則使用Pearson相關(guān)系數(shù)判斷其相關(guān)性時(shí),需要找到除自身序列值外的一個(gè)變量與之比較關(guān)系,為此時(shí)間序列有如下特點(diǎn):

時(shí)間序列只能比較自己和自己滯后的序列值,即形成自相關(guān)關(guān)系

ACK自相關(guān)系數(shù):度量變量過去的行為對變量現(xiàn)在的影響,即

ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} =  \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}

ACK表示:歷史序列\{  x_{1},...,x_{k} \}和當(dāng)前序列\{  x_{k+1},...,x_{n} \}之間的相關(guān)性

PACK偏自相關(guān)系數(shù):計(jì)算某一個(gè)變量對另一個(gè)變量的相關(guān)程度時(shí),把其他變量視為常數(shù)

PACK (k) = \frac{cov(X_{1,k} - \mu_{X_{1,k}},X_{k+1,n} - \mu_{X_{k+1,n}})}{\sigma(X_{1,k} - \mu_{X_{1,k}})\sigma(X_{k+1,n} - \mu_{X_{k+1,n}})}

= \frac{\sum_{t=1}^{n-k}  (x_{t+k} - \mu_{X_{k+1,n}}-\mu_{X}) (x_{t} - \mu_{X_{1,k}} -\mu_{X})}{\sum_{t=1}^k(x_{t} - \mu_{X_{1,k}}-\mu_{X})\sum_{t=k+1}^n(x_{t} - \mu_{X_{k+1,n}}-\mu_{X})}

PACK表示:計(jì)算時(shí)間序列\{  x_{t} \}\{  x_{t+k} \}的相關(guān)性影響,需要排除k-1個(gè)(\{  x_{t+1}  \}... \{  x_{t+k-1} \})中間變量的影響

十二、AIC和BIC準(zhǔn)則

AIC和BIC準(zhǔn)則可以輔助量化ARMA模型的定階,通過最小化AIC和BIC指標(biāo)來搜索出模型的最優(yōu)階數(shù)p和q

AIC準(zhǔn)則:全稱是最小化信息量準(zhǔn)則,定義為

AIC(k) =  - 2\ln(L) + 2k

其中k為模型的階數(shù),L為模型的極大似然函數(shù)

AIC準(zhǔn)則有一定的缺陷:即樣本容量很大時(shí),k的懲罰因子一直是常數(shù)2,與樣本容量沒有關(guān)系,這樣會(huì)導(dǎo)致AIC增大

BIC準(zhǔn)則:全稱是貝葉斯信息準(zhǔn)則,定義為

BIC(k) =  - 2\ln(L) + k\ln(n)

其中n為樣本容量

BIC很好的彌補(bǔ)了AIC的不足,將樣本容量n關(guān)聯(lián)到k的懲罰因子中

十三、一階自相關(guān)檢驗(yàn)—DW檢驗(yàn)

由ACK的定義

ACK (k) = \frac{cov(X_{1,k},X_{k+1,n})}{\sigma_{X}^2} =  \frac{\sum_{t=1}^{n-k}(x_{t}-\mu_{X})(x_{t+k}-\mu_{X})}{\sum_{t=1}^n(x_{t}-\mu_{X})^2}

我們設(shè)e_{t}=x_{t}-\mu_{X},e_{t+1}=x_{t+1}-\mu_{X},則構(gòu)造統(tǒng)計(jì)量DW為:

DW=\frac{\sum_{t=1}^{n-1}(e_{t+1} - e_{t})}{\sum_{t=1}^{n}e_{t}^{2}}

分析DW,當(dāng)n非常大時(shí),有\sum_{t=1}^{n}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t}^{2} \approx \sum_{t=1}^{n-1}e_{t+1}^{2},則

DW=\frac{\sum_{t=1}^{n-1}e_{t+1}^{2} + e_{t}^{2} - 2e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}}  \approx  2(1 - \frac{\sum_{t=1}^{n-1}e_{t+1}e_{t}}{\sum_{t=1}^{n}e_{t}^{2}} )=2(1-ACK(1))

DW檢驗(yàn)有以下特點(diǎn):

(1)DW檢驗(yàn)僅適用于一階自相關(guān)的檢驗(yàn)

(2)如果不存在一階自相關(guān),一般也不存在高階序列相關(guān)

(3)實(shí)際應(yīng)用中,對于序列相關(guān)問題一般只進(jìn)行DW檢驗(yàn)

由ACK(1)的取值來決定DW的取值情況:

當(dāng)ACK(1)=1,說明相關(guān)變量組存在一階正相關(guān),DW=0

當(dāng)ACK(1)=-1,說明相關(guān)變量組存在一階負(fù)相關(guān),DW=4

當(dāng)ACK(1)=0,說明相關(guān)變量組完全不相關(guān),DW=2

十四、ARIMA模型的步驟

通過上述知識(shí)點(diǎn),我們可以歸納出ARIMA模型的步驟為:

(1)獲取觀測的時(shí)間序列,檢驗(yàn)序列的平穩(wěn)性

(2)縮小序列值域,一般取對數(shù)序列

(3)對于非平穩(wěn)序列,通過d次差分運(yùn)算轉(zhuǎn)化為穩(wěn)定序列

(4)ADF單根檢驗(yàn),觀察p-value值是否小于5%

(5)模型定階:對平穩(wěn)時(shí)間序列分別求自相關(guān)系數(shù)ACF和偏自相關(guān)系數(shù)PACF,通過AIC、BIC準(zhǔn)則得到最佳的階數(shù)p和q

(6)模型訓(xùn)練:通過(p,d,q)階數(shù)訓(xùn)練ARIMA模型,學(xué)習(xí)到殘差序列

(7)模型檢驗(yàn):殘差序列是否滿足白噪聲、DW檢驗(yàn)一階自相關(guān)性、觀察殘差序列擬合原始?xì)埐钚蛄行Ч?br>

(8)模型測試:殘差序列逆向還原擬合時(shí)間序列,殘差序列交叉驗(yàn)證測試集

十五、ARIMA模型實(shí)戰(zhàn)案例

setp1:獲取時(shí)間序列樣本集

樣本數(shù)據(jù)為1949年1月到1960年12月每月的乘客數(shù)量

數(shù)據(jù)集
數(shù)據(jù)集

我們通過原始序列的滑動(dòng)均值和方差,觀察其穩(wěn)定性

原序列平穩(wěn)性檢驗(yàn)
原序列平穩(wěn)性檢驗(yàn)

可以看到原始序列的滑動(dòng)均值/方差都有逐漸增大的趨勢,該序列不穩(wěn)定

setp2:取對數(shù)和一階差分,通過滑動(dòng)均值和方差、以及ADF單根檢驗(yàn)差分序列是否滿足穩(wěn)定性

差分序列平穩(wěn)性檢驗(yàn)
差分序列平穩(wěn)性檢驗(yàn)

可以看到,差分后滑動(dòng)均值/方差逐漸趨于平穩(wěn),P值小于5%,差分序列是穩(wěn)定的

setp3:模型定階,畫出ACF和PACF的圖像

ACF和PACF

上下兩條灰線之間是置信區(qū)間

非統(tǒng)計(jì)學(xué)專業(yè)出身,肉眼定階法缺乏經(jīng)驗(yàn)。所以在階數(shù)和數(shù)據(jù)量不大的場景下,可以選擇暴力定階法,通過遍歷可能的階數(shù),計(jì)算ACK和PACK對應(yīng)于AIC和BIC準(zhǔn)則下的最小值,作為最優(yōu)階數(shù)p和q的參考

暴力定階法

上述選出基于BIC準(zhǔn)則下最優(yōu)參數(shù)(p,q)=(10,7)

setp4:訓(xùn)練ARIMA模型,即ARIMA(10,1,7),得到模型和殘差序列

訓(xùn)練ARIMA模型

setp5:檢驗(yàn)?zāi)P蛯W(xué)習(xí)效果

(1)殘差序列是否滿足白噪聲—qq圖

qq圖

qq圖的x軸表示正態(tài)分布分位數(shù),y軸為樣本分位數(shù),可以看到殘差序列基本位于一條直線上,即滿足白噪聲

(2)DW檢測一階相關(guān)性

DW檢測
DW檢測

(3)觀察學(xué)習(xí)到的差分序列擬合效果

檢驗(yàn)差分序列擬合結(jié)果

setp6:模型測試效果

(1)殘差序列逆向還原擬合時(shí)間序列

殘差序列逆向還原擬合時(shí)間序列

(2)殘差序列交叉驗(yàn)證測試集

殘差序列交叉驗(yàn)證測試集
交叉驗(yàn)證

實(shí)驗(yàn)結(jié)果可以看到,隨著時(shí)間的推移,模型的擬合效果和預(yù)測效果較為理想

案例代碼見:時(shí)間序列模型:ARIMA

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多