具体例で学ぶ!平均値の差を検定するt検定

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!!

このコラムでは、t検定と呼ばれる検定手法を紹介します!
会社Aと会社Bの平均年収に差があるのかといった、連続値同士の違いを証明する際に使用する検定です。

t検定とは

t検定 平均の差を検定
t検定 平均の差を検定

t検定とは、2種類のデータの平均値に差があるかどうかを統計的に検定する手法です。

例えば、ある学校で試験が行われたとします。この試験の点数が1組と2組とで差があるかどうかの検定をするときなどに使うことが可能です。
そして、t検定には、「対応のあるデータ」か「対応のないデータ」の2種類あります。
異なる対象から抽出した2つのデータは「対応のないデータ」です。

t検定 対応のないデータの例
t検定 対応のないデータの例


例えば、1組と2組の生徒は異なるため、それぞれのクラスから抽出されたデータは「対応のないデータ」となります。

検定の流れ

一般的な検定は、下記のような流れで行っていきます。
X2検定も同様の流れで行うため、この流れに沿って説明をしていきます。

  • 仮説の立案
  • 確率の計算
  • 仮説の検証

仮説の立案

帰無仮説:「平均が等しい」
対立仮説:「平均が等しくない」

まずは帰無仮説が正しいと考えます。
そのため、1組と2組で試験の平均点数が等しいと考えます。

確率の計算

t検定 対象データ
t検定 対象データ

実際に検定を行うには、各データの平均値と生徒の人数を使用します。
サイコロの場合と違い、試験の点数はどのくらいの確率でその値となるかが分かりません。
そのため、試験の点数を「検定するための値」を表すt値に下記の式で変換します。

t検定 t値の算出方法
t検定 t値の算出方法

上記式のσ:全体の分散とは、2つのデータの分散を用いて算出した「プールした分散」を使用します。
プールした分散とは、2つのデータの分散を1つにまとめたものです。
1つ目のデータの分散をσ_1、2つ目のデータの分散をσ_2とした場合、下記の式から求めます。

t検定 プールした分散の算出方法
t検定 プールした分散の算出方法


仮説の検証

t検定 t分布
t検定 t分布

先ほど算出したt値が大きいか小さいかを判断するための基準値が必要です。
その基準値を算出するために、t分布といった表を使います。
この分布を使用し、データの自由度から基準値を算出します。

t検定 仮説の検証
t検定 仮説の検証

これまでの流れでt値とその基準値を出し終えたら、最後は簡単です。
実際にそのt値と基準値の大きさを比較し、t値が基準値よりも大きい場合は帰無仮説を棄却します。
つまり、対立仮説が正しいと考えるため、2つのデータには関係があると結論づけることが可能です。

例えば、t値2.93 > 基準値2.00の場合、 「1組と2組で試験の平均点数が等しい」という仮説が間違っていたと考えます。
そのため、試験の点数には差があると解釈できます。

以上の流れで行うのがt検定といった検定手法です。

参考図書