分散分析と呼ばれるF検定!t検定との違いも解説!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です! 

このコラムでは、F検定と呼ばれる仮説検定の方法を紹介します。
F検定とは平均値に差があるかどうかを検定する方法です。
t検定との違いも含めてご紹介します!

t検定については、他コラム「平均値の差を検定するt検定」をご覧ください。

F検定(分散分析)の考え方

F検定(分散分析)とは
F検定(分散分析)とは

F検定は、3グループ以上のデータに対して、各グループの平均値に差があるかどうかを検定する手法です。
分散とはデータがどれほどばらついているかを表す値です。

分散を使用しているため、分散分析とも呼ばれますが、分散の大きさを比較しているわけではないため、F検定と「等分散の検定」とは違う検定手法ということに注意をしてください。

F検定の例として、3クラスに対して2種類の特別授業を行った場合を考えます。
この特別授業がクラスの点数に対して何らかの影響を与えたかどうかを測るためには、各クラスの平均値に違いが出たかどうかを測ることになります。
そして、各クラスの平均値に違いがあるかどうかを検定するために、F検定を使用します。

帰無仮説はそれぞれのグループの平均が等しい対立仮説はどこかのグループの平均値は違うという仮説になります。

F検定(分散分析)の仮説
F検定(分散分析)の仮説

複数グループの平均値を比較するため、まずはデータの値(生徒一人の点数)と全体の平均値(3クラス全体の平均点数)の差をグループの平均値を使って表します。

F検定(分散分析)の考え方
F検定(分散分析)の考え方

 

上記の値は、グループ内での差である郡内変動、グループ同士の差である郡間変動とも呼ばれます。
郡内変動:(グループの平均値 – データの値)測定誤差の分散
群間変動:(全体の平均値 – グループの平均値)要素を使用して分割したことによる平均値の分散

そして、F検定は、郡間変動と郡内変動の比率を使って、検定を行う手法です。

つまり、測定誤差の分散と比較して、各群の要因の効果が大きい場合は、要因の効果が大きいと考えます
今回の例の場合、郡間変動を郡内変動で割った値が大きい場合、特別授業はクラスの平均点数と関係があると判断します。
郡内変動が大きい場合(測定誤差の分散が大きい)、郡間変動(要素を使用して分割したことによる分散)も大きくなってしまうため、この比率を用いて検定を実施します。

また、データのばらつきには正と負の2種類が存在するため、単純にばらつきの合計を足すのではなく、ばらつきを2乗した合計値を使用します。
そのため、すべてのデータのばらつきの合計である「$(総変動)^2$の合計」 = 「$(群間変動)^2$の合計」 + 「$(群内変動)^2$の合計」になります。

F検定(分散分析)の計算方法

F値の求め方
F値の求め方

それでは、群間変動と群内変動を用いて,どのようにして検定するのでしょうか?
まずは統計量であるF値を算出します。
自由度を加味した$(群間変動)^2$の総和を$(群内変動)^2$の総和で割り算することによって、F値を算出します。

F分布からの閾値算出
F分布からの閾値算出

次に、F値が大きいかどうかを判断する閾値をF分布から算出します。
F検定には自由度が2種類あるため、F分布は2種類の自由度によって決まります。
そして閾値をF分布から算出したあとは、F値と閾値の大きさを比較して、F検定は終了です。

F検定の種類

4種類の分散分析
4種類の分散分析

F検定には4種類の方法があります。

  • 一元配置分散分析(対応あり)
  • 一元配置分散分析(対応なし)
  • 二元配置分散分析(対応あり)
  • 二元配置分散分析(対応なし)

対応ありと対応なしとは

対応ありと対応なし
対応ありと対応なし

同じグループから異なる条件で取得したデータは対応があるデータといいます。
異なるグループから異なる条件で取得したデータは対応がないデータといいます。

対応がある場合の例として、同じクラスAにある特別授業を行う場合が考えられます。
特別授業前、特別授業中、特別授業後の試験結果に対してF検定を行い、特別授業が試験の結果に影響を与えるかを検定します。
この場合、同じクラスAから特別授業を行ったかという異なる条件でデータを比較しているため、「対応がある」ことになります。

対応がない場合の例として、クラスAのみに特別授業を1時間行い、クラスBには4時間、クラスCには特別授業を行わない場合が考えられます。
特別授業の時間別に各クラスの試験結果に対してF検定を行い、特別授業が試験の結果に影響を与えるかを検定します。
この場合、異なるクラスで特別授業を行ったかという異なる条件でデータを比較しているため、「対応がない」ことになります。

一元配置分散分析(対応ありと対応なし)

一元配置分散分析
一元配置分散分析

一元配置分散分析は、1つの要素が結果に影響を与えているかどうかを検定する時に使われます。
一元配置分散分析は、「one way repeated measures ANOVA」とも呼ばれています。

「各データの値は全データの平均値からどれだけ離れているのか」、つまり、「各データの値のばらつき」は、対応ありと対応なしの場合により、それぞれ以下のように分解されます。

一元配置分散分析(対応あり)

一元配置分散分析(対応あり)
一元配置分散分析(対応あり)


一元配置分散分析(対応あり)では、同じグループが複数の条件で測定されるため、各グループの特徴を表す「個人差」を考慮する必要があります。
この測定誤差は、「グループの違いによる効果と個人差の効果では説明できない何か」を表します。

一元配置分散分析(対応なし)

一元配置分散分析(対応なし)
一元配置分散分析(対応なし)

一元配置分散分析(対応なし)では、異なるグループが複数の条件で測定されるため、個人差を考慮できず、測定誤差のみを考慮することになります。
測定誤差とは、「グループの違いによる効果では説明できない何か」を表します。

二元配置分散分析(対応ありと対応なし)

二元配置分散分析
二元配置分散分析

二元配置分散分析は、2つの要素が結果に影響を与えているかどうかを検定する時に使われます。
二元配置分散分析は、「two way ANOVA」とも呼ばれています。

二元配置分散分析のイメージ
二元配置分散分析のイメージ

二元配置分散分析を行うことで、2つの要素同士がお互いに与えている影響を把握することが出来ます。
例えば、特別授業がクラスの試験結果に与える影響が、男性と女性で違う可能性がある場合、二元配置分散分析を使うことでその影響を考慮することが出来ます。
2つの要素同士がお互いに与えている影響のことを、交互作用と呼びます。

2つの要素がお互いに影響していない場合、それぞれの要素ごとの影響を考えるだけでよいですが、2つの要素がお互いに影響を与えている交互作用がある場合、2つの要素を切り離して考えることは難しいことになります。

二元配置分散分析を行うために、下記の3つを考慮する必要があります。

  • 要素Aの影響
  • 要素Bの影響
  • 要素Aと要素Bの交互作用

まずは交互作用があるかどうかを確認します。
この交互作用があるかないかで、結果の解釈が変化します。

交互作用がある場合

要素Aと要素Bがお互いに影響しているため、これらの2要素を分けて考えることは不可能です。
そのため、要素Aの影響と要素Bの影響はあまり信用することが不可能です。

結果を解釈する場合、要素Aと要素Bを組み合わせた影響を1つの要素と考えます。
つまり、4つのグループそれぞれを独立したグループと考えて、4グループの比較を行うことが可能です。

交互作用がない場合

要素Aと要素Bがお互いに影響しないため、要素Aと要素Bを分けて考えることが可能です。
そのため、要素Aの影響と要素Bの影響はそのままの数値分、結果に影響を与えていると考えることが可能です。

しかし、4つのグループそれぞれを独立したグループと考えることは不可能です。
あくまでも、1つの要素ごとに結果へ影響を与えていると解釈するため、4グループの比較を行っているわけではないことに注意が必要です。

t検定との違い ~多重比較~

多重比較の危険性
多重比較の危険性

t検定は2グループの平均値の違いを証明する検定手法でした。
では、3グループ以上の場合、t検定を使用することはできないのでしょうか?

結論として、t検定を使用することは好ましくありません。
3グループ以上の場合にt検定を使用すると、多重比較と呼ばれる現象が起きるからです。

例えば、グループA、グループB、グループCの3グループある場合、t検定を3回行うことになります。

  • グループAとグループBでt検定
  • グループAとグループCでt検定
  • グループBとグループCでt検定

このように複数回のt検定を行うことによって、P値が(1 – 0.95*0.95*0.95) = 14%になり、有意水準に設定したP値の5%より大きくなり、有意になりやすくなる現象を多重比較と呼びます。

この多重比較を避けるために、3グループ以上の場合は、F検定(分散分析)を使うことが推奨されています。

F検定の注意点

F検定の注意点として、要因の効果を検定するため検定のため、検定に使用した要素が、どのグループの平均値に影響を与えているかは把握できません。
F検定では、「何らかの変動が起こった」ことだけが分かります。
どのグループの平均値に影響を与えているかを把握するためには、F検定を行った後、t検定を使用した多重比較を行う方法があります。

また、違いがありそうなグループ同士でも、F検定ではその違いを証明できないという場面があります。
例えば、特別授業を各クラスに行い、ある1クラスだけの点数は大幅に上がっても、その他のクラスが全く変化しなかった場合、分散分析では差が得られないことがあります。
一元配置分散分析の考え方から、この現象はグループの数が増えるほど起こりやすいです。

群内変動に対して群間変動が大きければ、F 値は大きくなり有意となりますが、仮に群内変動がどのグループでも同じと仮定すると、群間変動の大小でF 値が決まります。
ある1グループだけの群間変動が大きく、その他のグループの群間変動がほとんどない場合、群間変動の総和はそれほど大きくならず、ある1グループだけの群間変動は検定の結果に影響を与えない場合があります。

決定木分析への応用

F検定は、決定木分析であるCHAIDに使用されています。
F検定は、3グループ以上の平均値が違うかどうかを検定する手法です。

そのため、連続値のデータをCHAIDで分割していく際、平均値の差が大きくなるように分割することが考えられます。
ある要因を使用して分割することにより、3グループの平均値が変わったかどうかを検定することにより、精度よくデータを分割することが可能になります。

CHAIDについては、他コラム「決定木のアルゴリズム3選!CHAIDとCARTとC5.0を紹介!」で紹介しているので、良ければご覧ください。

まとめ

  • F検定
    • 3グループ以上のデータに対して、各グループの平均値に差があるかどうかを検定する手法
    • 分散を使用しているため、分散分析とも呼ばれる
    • 分散の大きさを比較しているわけではないため、F検定と「等分散の検定」は違う
    • 帰無仮説:それぞれのグループの平均が等しい
    • 対立仮説:どこかのグループの平均値は違う
    • 郡内変動:(グループの平均値 – データの値)、測定誤差の分散
    • 群間変動:(全体の平均値 – グループの平均値)、要素を使用して分割したことによる平均値の分散
    • 測定誤差の分散と比較して、各群の要因の効果が大きい場合は、要因の効果が大きいと考える
    • 検定に使用した要素が、どのグループの平均値に影響を与えているかは把握できない
    • ある1グループだけの群間変動が大きく、その他のグループの群間変動がほとんどない場合、群間変動の総和はそれほど大きくならず、ある1グループだけの群間変動は検定の結果に影響を与えない場合がある
    • 決定木分析であるCHAIDに使用される
  • 多重比較
    • 複数回のt検定を行うことによって、P値が(1 – 0.95×0.95×0.95) = 14%になり、有意水準に設定したP値の5%より大きくなり、有意になりやすくなる現象
  • F検定の流れ
    • 自由度を加味した$(群間変動)^2$の総和を$(群内変動)^2$の総和で割り算し、F値を算出する
    • F値が大きいかどうかを判断する閾値を2種類の自由度を使用したF分布から算出する
    • F値と閾値の大きさを比較する
  • 対応があるデータ
    • 同じグループから異なる条件で取得したデータ
  • 対応がないデータ
    • 異なるグループから異なる条件で取得したデータ
  • 一元配置分散分析
    • 1つの要素が結果に影響を与えているかどうかを検定する
    • 一元配置分散分析(対応あり):同じグループが複数の条件で測定されるため、各グループの特徴を表す「個人差」を考慮する必要がある
    • 一元配置分散分析(対応なし):異なるグループが複数の条件で測定されるため、個人差を考慮できず、測定誤差のみを考慮することになる
  • 二元配置分散分析
    • 2つの要素が結果に影響を与えているかどうかを検定する
    • 2つの要素同士がお互いに与えている影響のことを、交互作用と呼ぶ

参考図書