簡単に理解する自由度!カイ二乗検定とt検定を例に

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは自由度について紹介します!
自由度とは統計的仮説検定を使う時によく使われる値です。

自由度とは

自由度とは
自由度とは

ある変数において代表値や合計値が決まっている場合に自由な値をとることのできるデータの数のことを自由度と言います。
例えば、n個のデータx_1,x_2,\cdots,x_nがあるとき、これらはどれも自由な値を取ることが出来るため、自由度はnになります。

ここでもし平均値\overline{x}=aであるとき、平均値が変わらないようにするためにはn-1個のx_iは自由な値を取りうるが、n個目のx_nは自由な値を取ることはできない。
つまり、このときの自由度はn-1となる。
一般にn個のデータの間でk個の条件があるとき、自由度はn-kとなります。

自由度の例 ~カイ二乗検定の場合~

それでは検定を使う場合を例にして自由度を紹介していきましょう。
まずはカイ二乗(X2)検定の場合です。
カイ二乗検定については、他のコラム「Excelでできるカイ二乗検定 カテゴリデータの関係性を検定」をご覧ください。

カイ二乗検定では、クロス集計表を使いました。
下のような2列×2行の自由度を考えてみましょう。
この場合の自由度は(2-1)×(2-1) = 1になります。

X^2検定 クロス集計表
X^2検定 クロス集計表

自由度の定義から考えてみましょう。

カイ二乗検定の自由度
カイ二乗検定の自由度


男性の合計は90人、女性の合計は110人です。
そのため、①は90-30で60人、②は100-30で70人と求めることが出来ます。
そして、③は100-60(①)で40人と求めることが出来ました。
つまり、1つのセルに1つの値を自由に決めたら、他の値は強制的に決まってしまうことになります。

自由度の例 ~T検定の場合~

それでは検定を使う場合を例にして自由度を紹介していきましょう。
まずはt検定の場合です。
tについては、他のコラム「平均値の差を検定するt検定」をご覧ください。

t検定では、グループ同士の差を検定するために、グループごとの平均値を使いました。
下のような場合に、自由度を考えてみましょう。
この場合の自由度は(データの合計数 – グループの数) =  (30人 + 30人) – 2グループ = 58になります。

t検定 対象データ
t検定 対象データ

それでは1組の自由度をまず考えてみましょう。

t検定の自由度
t検定の自由度


平均値が分かっており、29人の点数が分かれば、生徒30の点数を求めることが出来ます。
つまり、29人の点数は自由に決めることが出来ますが、残りの生徒1人は強制的に決まります。

まとめ

  • 自由度
    • ある変数において代表値や合計値が決まっている場合に自由な値をとることのできるデータの数
  • カイ二乗検定の自由度
    • (列数-1)×(行数-1)
  • t検定の自由度
    • (データの合計数 – グループの数)