時系列分析の落とし穴!定常性、単位根過程、見せかけの回帰とは

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、時系列分析で仮定をしている定常性、それに関連する単位根過程を紹介します!
最後に時系列分析や回帰分析で落とし穴となる、見せかけの回帰について紹介しています!

定常性とは

定常性を仮定している手法
定常性を仮定している手法

時系列分析の中に属する分析手法の中では、分析対象のデータが定常性ということを仮定しています。
そのため、その時系列分析を行う場合、そのデータが定常性かどうかを確認する必要があります。
それでは、定常性とはどのようなことを指しているのでしょうか?

定常性とは、どの時点にも関わらず一定の条件を満たしているデータのことです。
定常性には弱定常性と強定常性が存在し、それぞれが満たさなければいけない条件に違いがあります。

弱定常性

時点 t に関わらず平均・分散・自己共分散が一定であるような時系列データを弱定常性と言います。
具体的には、下記の3つの条件を満たす場合、そのデータは弱定常性を満たしていると言います。

弱定常性の条件
弱定常性の条件

(1)より時点 t に関わらず、平均が一定であり、(2)より、自己共分散が一定となります。
また、(2)より、k=0の場合、分散が一定となります。

自己共分散が一定 = 分散が一定
自己共分散が一定 = 分散が一定

時系列分析では、この弱定常性のことを定常性と呼ぶことが多いです。
そのため、弱定常性を満たしているデータであれば、時系列分析を適用できる可能性があると考えます。

弱定常性とホワイトノイズの関係

弱定常性を満たす代表例はホワイトノイズと呼ばれます。
データが分散σ2のホワイトノイズである場合、~W.N.(σ2)と表されます。
ホワイトノイズにある変数を足す場合、平均と分散が一定になるため、弱定常過程になります。

強定常性

時点tに関わらず、分布が一定であるような時系列データを強定常と言います。

強定常性の条件
強定常性の条件

簡単に言い換えると、時系列データに対して任意の長さ l の同時分布を考えた場合、それを好きなだけ(任意の k だけ)ずらした同時分布は常に一定だということです。
この強定常性を満たすデータはビジネス上にはあまり多くないため、先ほど紹介した弱定常性をこのコラムでは定常性と呼ぶことにします。

強定常性とiid系列の関係

強定常性を満たすデータはあまり多くありませんが、強定常性を満たす代表例はiid系列と呼ばれます。
iidとは、independent and identically distributedの略称であり、独立および同一分布という日本語訳です。
iid系列とは、各時点のデータが互いに独立でかつ同一の分布に従う特性のことです。
また、あるデータが期待値μ、分散σ^2のiid系列である場合、∼iid(μ,σ^2)と表します。

単位根過程と定常性の関係

単位根過程と呼ばれる条件です。

単位根過程(1次和分過程)
単位根過程(1次和分過程)

単位根過程とは、時系列データが非定常であり、その差分を取ったデータが定常性を満たす時系列データのことです。
1次和分過程とも言われることがあります。
差分とは、データをずらした値と、元のデータとの値の差を取ることです。

d次和分過程
d次和分過程

また、単位根過程を一般化すると、 d−1階差分が非定常であり、そのd階差分を取ったデータが定常性を満たす時系列データを d次和分過程といいます。

単位根過程やd次和分過程と定常性の関係はこの定義から明らかです。
時系列が和分過程である場合、差分を取ることによって定常性を満たすデータに変換することができます。
そのため、元の時系列データが定常性を満たしていない場合、差分を取ることによって時系列分析を行うことが可能になります。

単位根過程の代表例 ランダムウォークとは

単位根過程の代表的な例として、ランダムウォークを紹介します。
時系列データのある時点を表すy_tが次式で表されるとき、その時系列データをランダムウォークといいます。 

ランダムウォーク
ランダムウォーク

このランダムウォークの1回差分は定常性を満たすデータとなります。

ランダムウォークの差分
ランダムウォークの差分

ランダムウォークの1回差分は(定数)+(ホワイトノイズ)の定常な時系列を表します。
つまり、ランダムウォークは単位根過程となります。

ランダムウォークは時間に比例する線形トレンド
ランダムウォークは時間に比例する線形トレンド


また、定義から初期値 y_0=0 と考え、ランダムウォークは(時間に比例するトレンド)+(ホワイトノイズの累積和)となります。
つまり、単位根過程であるランダムウォークは時間に比例する線形トレンドを記述することができます。

ADF検定とその使い方

ADF検定とは、対象データが単位根過程かどうかを検証する統計的仮説検定の1種です。

帰無仮説:単位根過程である
対立仮説:単位根過程ではない

上記の仮説を検証する統計的仮説検定のため、ADF検定をデータに対して実施し、棄却することができない場合は差分を取ることで時系列分析を行うことが可能です。

また、棄却することができた場合は、データが単位根過程でないと判断できます。

p次のARモデル
p次のARモデル

p次のARモデルの場合に考えてみましょう。
上記のARモデルが定常性を満たすためには、下記の条件を満たす必要があることが知られています。

AR過程が定常性を満たす条件
AR過程が定常性を満たす条件
係数の絶対値が1より小さい
係数の絶対値が1より小さい

つまり、ADF検定は以下の仮設を検定しているのと同義になります。
帰無仮説 H0 : α = 1
対立仮説 H1 : |α| < 1

この帰無仮説が棄却される場合とは、どのようなケースになるのでしょうか?

ADF検定の結果
ADF検定の結果

つまり、ADF検定の結果が棄却できた場合、元のデータが発散していなければ、定常性を満たしていると判断し、時系列分析を行うことが可能です。

見せかけの回帰とは

見せかけの回帰
見せかけの回帰

見せかけの回帰とは、2つの無関係な時系列データがどちらも単位根過程の場合、回帰分析を行うと相関が有意になってしまうという問題です。
上記の2種類のデータは、どちらもランダムに発生させた単位根過程のデータです。
これらを用いて、回帰分析を行うと有意なモデルが構築されてしまいます。
このような現象が発生するため、2つの時系列データを用いて回帰分析を行う場合は、そのデータが単位根過程かどうかを検定する必要があります。

見せかけの回帰を回避する方法は主に2つです。

  • 2つの時系列データに対してそれぞれの差分を取ったデータを用いて回帰分析を行う
  • 回帰式の説明変数にラグ変数、時差のある変数を追加する

まとめ

  • 定常性
    • ある時系列分析が仮定している条件
    • 時系列分析を行う場合、データは定常性を満たしている必要がある
    • どの時点にも関わらず一定の条件を満たしているデータのこと
    • 定常性には弱定常性と強定常性が存在し、それぞれが満たさなければいけない条件
  • 弱定常性
    • 時点tに関わらず、平均・分散・自己共分散が一定であるような時系列データを
    • ホワイトノイズが代表例
  • 強定常性
    • 時点tに関わらず、分布が一定であるような時系列データ
    • iid系列が代表例
  • 単位根
    • 時系列データが非定常であり、その差分を取ったデータが定常性を満たす時系列データのこと
    • ランダムウォークが代表例
  • ADF検定
    • 対象データが単位根過程かどうかを検証する統計的仮説検定
  • 見せかけの回帰
    • 2つの無関係な時系列データがどちらも単位根過程の場合、回帰分析を行うと相関が有意になってしまうという問題

参考図書

時系列分析の落とし穴!定常性、単位根過程、見せかけの回帰とは” に対して1件のコメントがあります。

コメントは受け付けていません。