回帰分析に密接な決定係数の求め方と目安!相関係数との関係も証明!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、回帰分析の評価を行う決定係数を紹介します!
構築したAIモデルがどのくらい上手に構築できているのか判断したい場合、決定係数を使用して判断可能です!

回帰分析とは

回帰分析の考え方
回帰分析の考え方

回帰分析は下記のようにデータを分解して考えています。

「全変動」=「回帰変動」+「残差変動」

  • 「全変動」:実際のデータとデータ全体の平均値との差を表します
  • 「回帰変動」:推定された回帰式から得られた予測値とデータ全体の平均値の差を表します
  • 「残差変動」:実際のデータと推定された回帰式から得られた予測値との差を表します


回帰分析については、他のコラム「エクセルでもできる!AI初級編!回帰分析」をご覧ください。

この回帰分析の考え方から、決定係数という指標を算出し、モデルの当てはまり度を確認することが出来ます!

決定係数とは

決定係数のイメージ
決定係数のイメージ

決定係数とは、「回帰変動が全変動に対してどれだけ多いか」を表すものです。
単回帰モデルや重回帰モデルなどの回帰式の精度を表す指標であり、目的変数の動きが説明変数によってどの程度説明できているのかを表している数値です
100%に近づくほど精度が高いことを表します。

決定係数を求めるためには、実際のデータと推定された回帰式から「全変動」「回帰変動」「残差変動」の3つを求める必要があり、これらの変動を二乗和として算出します。

決定係数の解釈
決定係数の解釈

決定係数は0~1の値を取り、1に近いほど精度が良いAIモデルということになります。
決定係数から精度が良いかどうかを解釈する場合、一般的には上記に対応するように精度を判断する場合もあります。

決定係数の算出式

決定係数の算出式
決定係数の算出式

決定係数は、回帰変動を全変動で割る上記の式で表されます。
ここでは、下記のように全変動、回帰変動、誤差変動の関係を使うことで、回帰変動と誤差変動のどちらからでも決定係数を求められるようになっています。

全変動と回帰変動、残差変動の関係
全変動と回帰変動、残差変動の関係

自由度調整済み決定係数の説明と算出式

自由度調整済み決定係数の算出式
自由度調整済み決定係数の算出式

決定係数は説明変数が増えると増加するという性質を持っていますが、これは見かけ上の精度が良くなるだけのため、自由度によって調整をした自由度調整済み決定係数を用いる場合もあります。
説明変数の数を増やせば増やすほど、決定係数は1に近づいてしまうため、これを補正したものが自由度調整済決定係数です。
(例)データ件数が少ない場合に説明変数の数が多い場合、説明変数と目的変数があまり関係なくても、決定係数は高くなってしまうため

決定係数や自由度調整済み決定係数を用いると、異なる回帰モデル間での良し悪しを判断することが可能になります。
特に、説明変数の数が異なる回帰モデルどうしを比較する場合には、自由度調整済み決定係数を使います。

データの数nは変わらないため、動く数値はkのみです。
そのため、変数を追加し、回帰平方和が大きくならない場合は、回帰平方和 / 全変動が小さくなるため、決定係数は下がります。
残差平方和が小さくならない場合は、残差平方和/全変動が大きくなるため、決定係数は下がります。
そのため、関係のありそうな(残差を大きく減らしてくれそうな)変数のみを入れることにより、自由度調整済み決定係数を大きくすることが出来ます。

決定係数と相関係数の関係を証明する

決定係数と相関係数には非常に面白い関係があります。
決定係数がR^2とも表記されているように、相関係数Rの2乗が決定係数と同じ値になります。

つまり、データ同士の相関係数の絶対値が大きいほど、回帰分析の精度が高くなるということです。
相関係数と決定係数が考えられた背景は全く別の考え方であり、それぞれ定義された指標です。
しかし、数学的には、相関係数と決定係数の間には関係があるという結果になっています。

決定係数と相関係数の関係
決定係数と相関係数の関係

決定係数の注意点

決定係数は予測の当てはまりの良さを表す指標です。
目的が「予測したい」の場合は適切な指標ですが、「影響の有無を調査する」の場合、決定係数に注目することはあまり意味がありません
指標の意味をしっかり理解し、分析の目的に合わせて使用してください!

まとめ

  • 決定係数とは、構築したAIモデルがどのくらい上手に構築できているのか判断したい場合に使う指標
  • 「回帰変動が全変動に対してどれだけ多いか」を表す
  • 分析の目的が「影響の有無を調査する」場合、決定係数に注目することはあまり意味がない