エクセルでもできる!AI初級編!回帰分析

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、回帰分析という数値系のデータに使われる分析手法を紹介します!
回帰分析はデータ分析やAIを知ろうと思った初期の段階で聞くことになる分析手法だと思います。
AIの登竜門といったところでしょうか。
今回はAI初級編として、回帰分析を紹介していきたいと思います。

回帰分析のイメージをつかむ

簡単に理解できる回帰分析のイメージ
簡単に理解できる回帰分析のイメージ

回帰分析とは、手元にある実際のデータに対して、直線で近似できるような式を構築する分析手法です。
上の図は、求めたいものに影響する要因の関係性を表しています。
例えば、明日の売上を予測したい場合、明日の天気や交通量などを使って、明日の売上を予測する。
その予測に使うための手法の1つが回帰分析です!

手元にある実際のデータとは、売上データや天気データのことを指しており、直線で近似できるような式というのが、数学でよく聞く一次関数や二次関数などのことを指しています。
少し難しく言い直すと、変数xによって変数yの変動をy=f(x)の形でどの程度説明できるかを分析する手法です。

いきなり理解することは難しいため、まずは簡単な回帰分析の式を説明します。
簡単な回帰分析は中学生でも理解できる下記のような一次関数の式になります。

回帰分析の式:y = αx + β     y(予測値)、α(傾き)、β(接点)

つまり、上の図を用いると、yが1日の売上を指しており、αが要素(店舗面積や天気など)、βが一定の定数を指しています。
例えば、店舗面積が広ければ広いほど1日の売上は上がっていくなどの式になります。

先ほどは簡単な式を説明しましたが、少し複雑な式になることもあります。
上の図の関係性を1つの式で表す場合は次の式になります。

回帰分析の式:1日の売上=α_1 × 店舗面積 + α_2 × 駅からの距離 + α_3 × 交通量 + α_4 × 天気 + β

  • 店舗面積が広ければ広いほど1日の売上は上がっていく
  • 駅からの距離が近ければ近いほど1日の売上は上がっていく
  • 交通量が多ければ多いほど1日の売上は上がっていく
  • 雨より晴れのほうが1日の売上は上がる

そんな要素の関係性を数字で分かりやすく表すことができるのが、回帰分析の特徴の1つです。
また、AIを学ぶ際に1番初めに知る手法でもあると思います。他の分析手法では数式でどんどん難しくなっていくため、数字に弱い人でも理解しやすいということでしょう。
そのため、どんなことをやる手法なのかは簡単に理解しておくと、他の手法を学ぶ時も理解が簡単になるかもしれません。

優生学の分野で、値がある傾向へ帰っていくことから回帰直線と呼ばれ、この直線の引き方と同じ手法のため、回帰分析と呼ばれたといわれています。

回帰分析の使い方を知る

先ほどは回帰分析の簡単なイメージをつかんでもらいました。
この章では、実際にどのような時に使われているのかを紹介します。

まず、回帰分析ができることは大きく2つあります。

  • ある対象を予測する
  • ある対象に影響を与えている要素やその影響力を探る

先ほどはある対象を予測するの例をあげましたが、ある対象に影響を与えている要素やその影響力を探ることもできます。
例えば1日の売上に影響を与えている要素を確認することで、どのように売上を伸ばすかといった戦略を立てることができます。
駅からの距離が近ければ近いほど売上が上がるのか、それとも交通量が多ければ多いほど売上が上がるのかを確認することで、新しく出す店舗の場所も検討できるかもしれません。

このように回帰分析は2通りの使われ方をします。
他にも下記のような使われ方が可能です。

  • コンビニ売上に影響を与えている要素を調べ新店舗の売上高を予測する
  • ビールの販売量を気温や景気指数などから予測し需要予測に役立てる
  • 天気予報のデータから、ソフトクリームの販売量を予測する
  • 数学の成績がいい人は、5科目全体の成績が上がっている

このように1つの分析手法ではありますが、使い方によっては幅広い事象に使えることができます。
ただ、実際に使う時には回帰分析の考え方を理解していなければ、結果を間違えて解釈する危険性もあるため、要注意です。

それでは、次に回帰分析の考え方を紹介しましょう!

回帰分析の考え方を理解する

図を用いた回帰分析の考え方
図を用いた回帰分析の考え方

上の図は回帰分析の考え方を図にしたものです。

青色の斜め線が、回帰分析を使ってデータから求めた式、つまり回帰式y = αx + βを表しています。
そのため、x_iの時点でyがαx_i + βになることは理解していただけると思います。

それではどのようにこの回帰式を求めていくかを説明します。
まず実際のデータには測定誤差や偶然による誤差など、様々な誤差が含まれていると考えることから始まります。
つまり理論上完璧なデータではないという考え方です。
そのため、uで「誤差」を表し、「実際のデータの値」と「回帰式から求められる値」のズレを考えます。

そして次に「最小二乗法」という計算式を用いて、すべてのデータx_iの誤差uを小さくするように、回帰式を構築するという流れが回帰分析という手法です。
「最小二乗法」とは、それぞれのデータの誤差uの足していき、この合計が1番小さくなるようなαとβを算出するための方法です。
αとβが求まることで、簡単に回帰式を考えることができます。

また、構築された回帰式のαとβは「偏回帰係数」と呼ばれ、実際のデータから算出された推定値です。
少し難しいと感じた人は、「すべてのデータについて、あまり離れないような回帰式を構築している」ということを覚えておいてください。

以上が回帰分析のイメージや考え方になります。

次は回帰分析がどういった出力結果が出ていて、どのように解釈するかを紹介します。
次の章は少し複雑になるため、詳しく理解しなくてもいい人は割愛しても大丈夫です。

回帰分析の出力結果を解釈する

回帰統計
回帰統計
分散分析表1
分散分析表1
分散分析表2
分散分析表2

Excelを用いて回帰分析を実行するとたくさんの新しい単語が出現します。
この章では、結果の解釈方法を紹介します。

まず結果として、3つの表がそれぞれ出力されます。

  • 回帰統計の表
  • 分散分析表
  • パラメータの表

回帰統計では、構築した回帰分析のモデルの概要を表している値が一覧で表示されます。
分散分析表では、回帰分析を構築するための計算式を表す値が一覧で表示されます。
パラメータの表では、構築した回帰分析の詳細な値が一覧で表示されます。

それでは次の章から1つずつの値を説明していきます。

R^2乗値

結果のもっともらしさを表現する値です。
回帰統計表の「重決定R2」がこの値を表しています。
決定係数とも呼ばれます。

データに対して、構築した回帰分析のモデルがどの程度当てはっているかという度合いを表します。
0から1までの値をとるため、重決定R2が1に近いほど、回帰式がデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。

R^2乗値については、他コラム「回帰分析に密接な決定係数の求め方と目安!相関係数との関係も証明!」で紹介しています。

説明変数や目的変数については、別のコラム「教師あり学習と教師無し学習」で紹介しています。

切片と傾き

分散分析表にある「係数」では、回帰分析で求めた数式に関する値を表します。
つまり、今回の回帰分析で求めた数式は、下記の結果となることが解釈できます。

y = 0.00x – 0.01x – 3.27x + 53.48

つまり、この回帰式では、x1である店舗面積は1日の売上に大きく関係せず、x2である駅からの距離が大きくなるほど売上が下がり、降水量が多ければ多いほど売上が下がるという結果になっています。

95%信頼区間

95%信頼区間とは、係数(切片aと傾きb)が95%の確率で含まれている区間を表します。
つまり今回の場合は下記のようになります。

  • 切片β:40.26(53.48 – 13.22)から147.22(53.48 + 93.74)の区間に95%の確率で含まれている
  • 店舗面積の傾きx1:-0.75(0.00 – 0.75)から0.74(0.00 + 0.74)の区間に95%の確率で含まれている
  • 駅からの距離の傾きx2:-0.01(0.01 – 0.02)から0.02(0.01 + 0.01)の区間に95%の確率で含まれている
  • 降水量の傾きx3:-10.46(- 3.27 – 7.19)から-2.62(- 3.27 + 0.65)の区間に95%の確率で含まれている

この95%区間が大きすぎる場合は、構築した回帰分析の予測精度が悪くなってしまいます。
また、実際にシステム化する際はこの95%区間を表示することで、使いやすいシステムになる可能性もあります。

その他の値(F値、標準誤差、t値、P-値)

F値

回帰分析では、「回帰の変動」と「残差の変動」が等しくないと考えて問題がないかを検定しています。
有意ではない場合、「回帰の変動」が「残差の変動」と等しくなるため、意味が無いモデルとなってしまいます。
F値では、「回帰の変動」と「残差の変動」の大きさを表します。
そして、このF値を使って後ほど紹介するP値を算出します。
そのため、一概にF値の値を使うことはあまりなく、P値を確認して構築した回帰モデルを信頼してよいかどうかを判断していきます。

F値 = 回帰の平均平方 / 残差の平均平方

平均平方 = 平方和 / 自由度

標準誤差

回帰式の定数と係数の誤差(ブレ幅)を示す値です。
小さいほど構築された回帰式の信頼性が上がると考えます。

t値

どの項目が目的変数に影響を与えているかを確認する値です。
値が大きいほど、影響を与えていると解釈します。

t値 = 非標準化係数(偏回帰係数) / 標準誤差

正確には、t検定を使用して「回帰式の係数α」が「0」ではないことを検定しているため、有意になった場合は回帰式の係数が0ではないことを示します。

標準偏回帰係数

excelの結果では出力されていない値ですが、算出することが可能な値です。
変数を標準化した値から算出される偏回帰係数です。
重回帰式における各変数の重要性を表す指標であり、標準化偏回帰係数どうしの大小を比較することで、どの変数が大きく影響を与えているかを比較することができます。

まとめ

  • 回帰分析とその特徴
    • 変数xによって変数yの変動をy=f(x)の形でどの程度説明できるかを分析する手法
    • 要素の関係性を数字で分かりやすく表すことができる
    • ある対象に影響を与えている要素やその影響力を探ることができる
    • 最小二乗法を用いて、すべてのデータx_iの誤差uを小さくするように、回帰式を構築する
  • R^2乗値
    • 結果のもっともらしさを表現する値
  • 係数
    • 回帰分析で求めた数式に関する値
  • 95%信頼区間
    • 係数(切片aと傾きb)が95%の確率で含まれている区間
  • F値
    • 「回帰の変動」と「残差の変動」の大きさ表す値
  • 標準誤差
    • 回帰式の定数と係数の誤差(ブレ幅)を示す値
  • t値
    • どの項目が目的変数に影響を与えているかを確認する値
  • 標準偏回帰係数
    • 変数を標準化した値から算出される偏回帰係数

参考図書

エクセルでもできる!AI初級編!回帰分析” に対して7件のコメントがあります。

コメントは受け付けていません。