box-jenkins法の流れを丁寧に解説!状態空間モデルとの違いも!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、古典的な時系列分析であるbox-jenkins法の流れを紹介しています!
box-jenkins法は分析の流れが形式化されているため、使える場面が多くあります!

基本的な用語については、他コラム「時系列分析の落とし穴!定常性、単位根過程、見せかけの回帰とは」で紹介しているので、ご参考にしてみてください。

box-jenkins法とは

box-jenkins法とは、ARモデル、MAモデル、ARMAモデル、ARIMAモデルの中から、自己相関係数や自己偏相関係係数をみて自己回帰の次数決定やデータの水平化を行いモデルを構築する一連の流れのことです。
ボックス(Box)とジェンキンス(Jenkins)と呼ばれる人たちが考えたため、box-jenkins法と呼ばれるそうです。

box-jenkins法は古典的な方法ではありますが、非常に使いやすい上に一定の精度が見込まれる、非常に有用な分析方法だと思います。

box-jenkins法の流れ

box-jenkins法の流れ
box-jenkins法の流れ

box-jenkins法は、4つのステップを行い、時系列モデルを構築していく方法です。

定常性の確認

定常性の確認では、時系列モデルが有効に適用できるデータかどうかを、統計的仮説検定を用いて確認します。
box-jenkins法に該当する時系列モデルは、分析対象のデータが定常性を満たしていることを仮定して、分析を行います。

定常性を簡単に言うと、いつ時点のデータをとっても、データの性質が一定のデータのことです。
そのため、定常性を満たしているかどうかを統計的仮説検定を用いて、検証します。

その方法として、データが単位根を満たしているかどうかをADF検定という統計的仮説検定を用いて検証します。
単位根を満たしている場合、次のデータの加工でデータ同士の差分を取ることにより、定常性を満たすデータになります。
単位根を満たしていない場合、そのデータは何も加工せずとも、定常性を満たしていると考えることが可能です。

データの加工

データの差分を取る
データの差分を取る

データの加工では、データが定常性を満たしていない場合、定常性を満たすようにデータを加工します。
データが単位根を持っている場合、データ同士の差分を取ることにより、差分後のデータは定常性を満たします。

差分とは、4月のデータと5月のデータの差分を取ることを指し、1つ前のデータとの引き算を行った値です。

モデルの構築

時系列モデルが有効に使えるデータを作成した後に、モデルの構築を行います。

ARIMAモデルを使用して、モデルの構築を行う場合、推定するべきモデルのパラメータは2種類あります。
それは、「いつ時点までの値を使用するかを表す、説明変数の数」「説明変数の影響度を表す、係数」の2種類です。
それぞれのパラメータで、推定する方法が変わります。

説明変数の数

説明変数の数を推定
説明変数の数を推定

説明変数の数を設定する場合、AICを用いて時系列モデルを構築します。
そもそも説明変数は多ければ多いほど、モデルが表現できる幅が広くなり、学習用データの予測精度が向上する可能性が高くなります。

しかし、説明変数が多ければ多いほど、過学習と呼ぶ現象が発生し、学習用データの予測精度は高いが、検証用データの予測精度は低くなるということが起こります。

そのため、説明変数を増やすリスクと増やす効果を計算し、リスクより効果がある場合、説明変数を増やすということを行う必要があります。
一般的なbox-jenkins法では、AICという指標を使って、説明変数を増やすかどうかを設定します。

AICについては、他コラム「絶対誤差(mse)と相対誤差(mre)?AIモデルの精度とその求め方」をご覧ください。

係数

説明変数の影響度を推定
説明変数の影響度を推定

説明変数の数が決まった後は、それぞれの説明変数の影響度を表す、係数を推定する必要があります。
この係数の推定には、回帰分析や他の分析手法でもよく使われている最尤法が使われることが多いです。

モデルの確認

モデルの確認
モデルの確認

モデルの確認では、構築したモデルが正しく構築できているかどうかを確認します。

box-jenkins法に該当する時系列モデルは、実際のデータと予測値の差は正規分布から現れた誤差だと仮定しています。

そのため、実際のデータと予測値の差が、正規分布から現れた誤差かどうかを検証します。

状態空間モデルとの違い

時系列分析の中には、大きくbox-jenkins法と状態空間モデルの2種類があります。
それぞれの違いを簡単に紹介します!

box-jenkins法のメリットと状態空間モデルのデメリット

box-jenkins法は、今回紹介したように分析のルールが定まっているため、モデル構築の自動化が可能です。
状態空間モデルは、表現できることが多すぎるため、モデル構築を自動化することは難しいことがデメリットです。

つまり、box-jenkins法は、半年や3か月などの一定期間で、モデルを自動的に再構築することにより、精度の担保が比較的容易になります。

box-jenkins法のデメリットと状態空間モデルのメリット

状態空間モデルでは、過去の知見や直感を、自由に表現してモデル構築が可能です。
つまり、ARIMAモデルなどの分析手法も、状態空間モデルで表現することが可能です。

また、推定されたモデルの解釈が用意であることや、差分を取るといったデータの加工が不要になります。

box-jenkins法では、データに欠損値がある場合、欠損値を補完してから分析を行う必要がありますが、状態空間モデルでは、欠損値がある場合でもそのまま分析を行うことが可能です。

まとめ

  • 定常性の確認
    • データが単位根を満たしているかどうかをADF検定を用いて検証する
  • データの加工
    • データが定常性を満たしていない場合、定常性を満たすようにデータを加工する
  • モデルの構築
    • 「いつ時点までの値を使用するかを表す、説明変数の数」と「説明変数の影響度を表す、係数」の2種類を推定する
  • モデルの確認
    • モデルの確認では、構築したモデルが正しく構築できているかどうかを確認する
  • メリット:モデル構築の自動化が可能
  • デメリット:欠損値を補完する必要がある

参考図書

box-jenkins法の流れを丁寧に解説!状態空間モデルとの違いも!” に対して1件のコメントがあります。

コメントは受け付けていません。