役に立つ数学!イメージで分かる統計学の基本を学ぶ

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、データ分析の軸になっている統計学という学問を紹介します。

統計学は数学を使った学問になるため、直感的に理解が難しいとは思います。そこで、なるべく数式を使わずにイメージを抑えていただければという思いでこのコラムを作成しています。

統計学とは

学生身長体重学生身長体重
A14640F17056
B15242G15247
C15551H14640
D15448I14640
E15855J15657
学生の身長と体重のデータ

数式を使ってデータの概要などをつかんだり、データの違いなどを立証する学問を統計学と呼びます。データの特徴が分かれば、その特徴を生かして現実の世界で活用することができます。例えば、学生の身長と体重の一般的な関係性を導くことで、この学生は少し太っている、少し痩せているなどを比較して理解することができます。

統計学のイメージ
統計学の簡単なイメージ

統計学では、母集団と標本という単語が出てきます。標本とは手元にある生のデータのことを言います。また、母集団とは人が確認することができないグループのことであり、生データを取得した先にある全体のグループのことを言います。

上図の例の場合、生データが10人の学生の身長と体重のデータになります。ここでいう母集団とは全国各地域の学生の身長と体重のデータのことになります。そのため、母集団を完璧に把握することは難しく人が確認することができないという意味を理解していただけたと思います。

統計学の使い方 ~データの特徴を理解する~

統計学の使い方 ~データの特徴を理解する~
~データの特徴を理解する~

それではこの章から統計学の使い方を紹介していきましょう。

あらゆるところにデータは存在していますが、生のデータを眺めるだけでは、ぼんやりとしかデータの特徴を理解することができません。そのため、データを集約したり集計したりすることで、データの特徴をつかんでいくことが、データ分析の第1歩になります。

例えば、学生の身長と体重を見ただけでは、ひとりひとりの学生の特徴を目で見ていくことで、特徴を抑えることはできます。しかし、10人の学生全体の特徴と言われると生のデータだけを見ているだけで、特徴を確認することは難しくなります。

この時から統計学が活躍してきます。例えば一般的に知られる平均値を使うことで、この10人全体の身長や体重の代表値として平均値を確認することができます。そして、この生データの特徴をつかんだことにより、次の母集団を推定するという段階になります。

生データの特徴を確認するための指標としては、基本統計量と言われる値があります。この値は主に「平均値」「中央値」「標準偏差」「最大値」「最小値」などが存在します。

統計量特徴
平均値すべてのデータの値を足してデータの個数で割った値
中央値集団のデータを小さい順に並べた時中央に位置する値
標準偏差データのばらつき具合を示す値
最大値データの中で最大の値
最小値データの中で最小の値
基本統計量それぞれの特徴

統計学の基本 ~母集団を推定する~

統計学の基本 ~母集団を推定する~
~母集団を推定する~

母集団を推定する際は、検定という技術を使います。

そもそも統計学には、あらゆる生データは、母集団から取得したデータのため、完璧に母集団の特徴をつかむことができないという考え方があります。これを誤差や推定誤差と呼ぶこともあります。

この誤差が存在するため、標本では特徴が出ているが、母集団では特徴が出ていないという現象が起きることもあります。この現象を防ぐために検定と呼ばれる技術を使って、標本で見つけた特徴は母集団でも特徴であるだろうという推定を行うことで、母集団を推定していきます。

統計学の基本 ~検定~

有意水準を使った検定の考え方
有意水準を使った検定の考え方

最後にこの章では、検定について少し紹介します。

前の章では、検定とは母集団を推定する技術と紹介しました。そして母集団とは人が確認することができないグループのことであり、生データを取得した先にある全体のグループのことを指しており、標本とは手元にある生のデータのことと紹介しました。

それでは、どのように母集団を推定するのでしょうか?

統計学の考え方では、標本で発生している特徴が、母集団でも発生する確率を考えます。例えば、学生の身長と体重の標本がある場合、平均身長は174cm、平均体重は60kgとすると、全国の学生も同じような平均身長と平均体重の確率を求めるのです。

それではもしこの確率が求まったと仮定し、どれほどの確率ならば、それを母集団の特徴と考えてもよいのでしょうか?この時の閾値を表す際に使われるのが有意水準と呼ばれる値です。

有意水準とは、標本の特徴が母集団でも同じ特徴である確率を表しています。(専門用語で表すと、帰無仮説を設定したときにその帰無仮説を棄却する基準とも言います。)

この有意水準はα(アルファ)で表されており、5%(0.05)や1%(0.01)といった値がよく使われます。この5%や1%には正解がなく、検定を実施する前に設定しておくべき値になります。

この有意水準が5%の場合を先ほどの例で考えてみましょう。検定をした結果、出た確率が4%の場合、標本の特徴が母集団でも同じ特徴であることが、100回に4回ほどしか起こらないと解釈できます。そのため、有意水準5%より低いことから、とても珍しいことが起こったと解釈します。そして、統計学では珍しいことは偶然では起こらないと解釈するため、標本の特徴が母集団でも同じ特徴であるということを表します。

つまり、検定で求めた確率が有意水準(5%や1%など)より低い場合は、標本の特徴が母集団では特徴でもあると解釈することが出来ます。厳密に言い換えると、5%のとても珍しいことが起こっているため、何かしら意味があることであるのではないかということを表します。

しかし、検定の結果が5%以下となった場合でも、5%ほどのとても珍しい事象が起こった場合もあるため、検定を必ず信じることは危険でもあります。また、現代のビッグデータと呼ばれる膨大なデータ量を使って検定を行うと、検定の性質上特徴ととらえやすい結果になってしまうことも要注意です。