データのばらつきを求める箱ひげ図!外れ値の解釈も計算!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、箱ひげ図という集計方法を紹介します!
Excelでも簡単に実施できることや、理論や考え方がそれほど難しくなく、様々な場面で活用できるため、初心者におすすめの集計方法です。

箱ひげ図で分かること

箱ひげ図
箱ひげ図

箱ひげ図とは、データがどのあたりに存在しているかを視覚的に把握する集計方法です。
上記の図の青色の長方形を箱と呼びます。
そして、青色の箱から出ている線のことをひげと呼びます。
箱とひげから作られた箱ひげと呼ばれる図を使って、データが存在している範囲を表しています。
また、1組や2組といったカテゴリデータ別に箱ひげを作ることが可能なため、カテゴリデータ同士のデータのばらつきを比較ことが出来ます。

例えば、上の例では各クラスのテストの点数を箱ひげ図を使って表したグラフです。
箱ひげ図からは様々なことが読み取れますが、主に下記の特徴が読み取れます。

  • 1組は他のクラスと比較して点数が高い
  • 2組は他のクラスと比較して点数が低い
  • 2組は他のクラスと比較して点数が高い人と低い人で差が大きい

パーセンタイルとは

パーセンタイルの説明
パーセンタイルの説明

箱ひげ図の内容を説明していく前に、「パーセンタイル」について紹介します。
パーセンタイルを理解することで、この後の箱ひげ図を理解しやすくなると思います。
まず、パーセンタイルとは「データを小さい順で並べたとき、データの小さい方から見て全体の何%にデータが位置しているかを表す」値です。

例えば、0パーセンタイルはデータを小さい順で並べたときの0番目のため、最小値を表します。
同様に100パーセンタイルは最大値を表します。
そのため、nパーセンタイルは、データ全体を小さい順から見てn%と100-n%で分割する値ということになります。

四分位数

パーセンタイルと四分位数
パーセンタイルと四分位数

箱ひげ図には最大値、最小値に加えて「四分位数」の情報が含まれています。
四分位数はデータを小さい順に並べて、小さいものから順位を付けた時、25%ずつ区切った値のことです。
3つのパーセンタイルに名前を付けたものという解釈になります。

  • 25%(全体の1/4の部分)=25パーセンタイル(第1四分位数)
  • 50%(全体の2/4=1/2の部分)=50パーセンタイル(第2四分位数)
  • 75%(全体の3/4の部分)=75パーセンタイル(第3四分位数)

この3つの四分位数で区切ると、データの個数を4等分することができます。
また、第三四分位数から第一四分位数を引いたものを四分位範囲(Inter Quarter Range 略してIQR)と呼びます。

箱ひげ図の解釈方法

箱ひげ図の解釈方法1
箱ひげ図の解釈方法1
箱ひげ図の解釈方法2
箱ひげ図の解釈方法2

箱ひげ図では、箱とひげから下記の情報を読み取れます。

  • 最大値:ひげの1番上
  • 中央値:箱の真ん中
  • 最小値:ひげの1番下
箱ひげ図の使い方
箱ひげ図の使い方

また、四分位数によってデータは上から次の4つに区分できます。

  • 最大値から第3四分位まで:全体のデータ数の25%
  • 第3四分位から第2四分位まで:全体のデータ数の25%
  • 第2四分位から第1四分位まで:全体のデータ数の25%
  • 第1四分位から最小値まで:全体のデータ数の25%

4つの区分にそれぞれ同じ個数である25%数分のデータが入っています。
そして、同じデータ数でもその区間の長さが異なるため、データのばらつき具合を知ることができます。

外れ値

外れ値検出のある箱ひげ図

「ひげの上端と下端が最大値や最小値の箱ひげ図」とは異なる箱ひげ図もあります。
その代表例が「ひげの長さを四分位範囲(IQR)の1.5倍を上下限」とする箱ひげ図です。
このとき、「第一四分位数-1.5×IQR」がひげの下限、「第三四分位数+1.5×IQR」がひげの上限となり、ひげの下端より小さい値やひげの上端より大きい値を「外れ値」として扱います。

外れ値とは、データの分布において、他の観測値から大きく外れた値のことです。
外れ値は、測定ミスによる場合や実際に何か異常があって観測された場合など、様々な原因によって起こりえます。
外れ値が存在すると、データの解釈が難しくなる場合があり、扱いには注意が必要です。

何%くらい起こる値を外れ値としてるの?

まずはデータを標準正規分布と仮定し、外れ値の発生する確率を算出します。
標準正規分布と仮定する理由として、全てのデータはどのような分布かという情報は手元にあるデータからでは断言することは出来ないため、一般的な標準正規分布と仮定することで、様々な情報を推測することが出来るからです。

外れ値の発生確率を学ぶことで、箱ひげ図を使う際にどのくらいの確率で外れ値として解釈しているかを理解することができます。
このような知識は必須ではありませんが、箱ひげ図を使った場合に誰かから質問がきた際、外れ値の発生確率を紹介することで信頼性が向上することは間違いありません!
理解を簡単にするために、まずは片側検定、つまり箱ひげ図より小さい側で外れ値が発生する確率を求めます。

標準正規分布表
標準正規分布表

標準正規分布では、大きい側・小さい側のどちらで外れ値が発生するかという確率は同じになるため、標準正規分布表が25%、つまり0.25に近い値を確認します。
標準正規分布表の中で1番25%(0.25)に近い値は、z=0.67になります。
(標準正規分布表の見方は別のコラムで今後紹介しようと思います。)
つまり0.67σが第3四分位値と第1四分位値と同義の値になります。

四分位+1.5×箱のサイズより外れた値を、箱ひげ図では外れ値としているため、「25%+1.5×箱のサイズ」より小さい側の値をまずは計算していきます。
箱のサイズとは、25%~75%の長さを表しているため、0.67σの2倍である1.34σが箱のサイズになります。
ここで、標準正規分布と仮定したことにより、σ = 1になるため、外れ値にならない領域は「0.67+1.5×1.34=2.67」となります。
つまり±2.67σが、箱ひげ図が表す通常の分布範囲ということになります。

標準正規分布表2
標準正規分布表2

それでは最後に外れ値が発生する確率を算出しましょう。
Z=2.67に相当する確率を標準正規分布表で確認すると、0.004(≒0.4%)になりました。
これは片側で考えています。
つまり、箱ひげ図より小さい値の外れ値が発生する確率が0.4%になります。

そのため、両側、つまり大きい値と小さい値のどちらの外れ値も発生する確率は0.4%×2=0.8%となります。
つまり0.8%の確率で発生するデータを外れ値としていたのです!
細かい数値は覚えていなくても、大体1%以下と覚えておけば、実際に誰かに説明する時に説明しやすいと思います!

まとめ

  • 箱ひげ図
    • データがどのあたりに存在しているかを視覚的に把握する集計方法
    • ひげの上端と下端が最大値や最小値を表す
    • 四分位数の情報
    • 最大値:ひげの1番上
    • 中央値:箱の真ん中
    • 最小値:ひげの1番下
  • パーセンタイル
    • 「データを小さい順で並べたとき、データの小さい方から見て全体の何%にデータが位置しているかを表す」値
  • 四分位数
    • データを小さい順に並べて、小さいものから順位を付けた時、25%ずつ区切った値
    • 25%(全体の1/4の部分)=25パーセンタイル(第1四分位数)
    • 50%(全体の2/4=1/2の部分)=50パーセンタイル(第2四分位数)
    • 75%(全体の3/4の部分)=75パーセンタイル(第3四分位数)
  • 外れ値検出ありの箱ひげ図
    • 「ひげの長さを四分位範囲(IQR)の1.5倍を上下限」とする箱ひげ図
    • 「第一四分位数-1.5×IQR」がひげの下限
    • 「第三四分位数+1.5×IQR」がひげの上限
    • ひげの下端より小さい値やひげの上端より大きい値を「外れ値」として扱う
    • データを標準正規分布と仮定し、外れ値の発生する確率は、大きい値と小さい値のどちらの外れ値も発生する確率は0.4%×2=0.8%