Excelでできるヒストグラム!度数分布表やスタージェスの公式の欠点も紹介!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、ヒストグラムという集計方法を紹介します!
Excelでも簡単に実施できること、解釈が分かりやすいことからとても便利な集計方法です。
是非ヒストグラムを使えるようにして、意味のある集計を行えるようにしましょう。

ヒストグラムとは

ヒストグラム
ヒストグラム

ヒストグラムとは、データがどこらへんに何件存在しているかを視覚的に把握する集計方法です。

例えば、会社Aに入社した時の年収を把握したいとします。
会社Aに所属している社員の平均年収データから、ヒストグラムを使ってデータを集計すると、会社Aは400-500万円の人数が多いということが分かります。
そのため、もし会社Aに入社した時の年収は、およそ450万円くらいの年収になることが推測できます。

このように、データがどこらへんに何件存在しているかを視覚的に把握することができるのが、ヒストグラムと呼ばれる集計方法です。

ヒストグラムの解釈方法

ヒストグラムの解釈方法
ヒストグラムの解釈方法

ヒストグラムからはたくさんのことを把握することができ、データがどこに存在しているかを把握できます。

①400-500万円の人数が1番多い
②400-500万円の周りに人数が密集している
③900万円以上は10人存在する
④100万以下は30人存在する

よく使われる解釈としては、①のデータが1番多い箇所、②のデータが多い複数の箇所など、データが集まっている箇所を把握する場合、ヒストグラムが有効です。
また、データが多い箇所だけではなく、③や④のデータの端にどのくらいのデータが集まっているかを把握する場合も有効です。

データに合わせて何を知りたいのかを考えた後、ヒストグラムからその知りたい情報を読み取ることが重要です!

ヒストグラムの使いどころ

ミスリードを防ぐ
ミスリードを防ぐ

この章では、ヒストグラムを使う1番のメリットを紹介します。
それは「データのミスリードが少なくなる」ということです。

データを確認するときは、平均値や中央値などの数字だけではミスリードすることがあります。
平均年収が600万円の会社Aに入社すると、大体600万円前後の年収がもらえると考えてしまうかもしれません。
このように、平均値と呼ばれる代表値だけを確認してデータを判断することはミスリードが起きてしまいます。

例えば、この会社Aの平均年収のヒストグラムを作ったとします。
すると、年収が1000万円以上の社員が多く100人も存在していることが分かりました。
この場合は、平均年収1000万円以上の社員100人が、会社A全体の平均年収を高くしている可能性があります。
ヒストグラムでは、200-300に78人、300-400に70人、400-500に90人の社員が存在しており、多くの社員は200-500万円くらいの年収であることが分かります。
そのため、会社Aに入社しても年収1000万円をもらえるのは一握りの社員であり、大体の社員は200-500万円ほどしかもらえない場合があります。

このように、代表値を見るだけでなく、ヒストグラムでデータを可視化することにより、データ全体の傾向を簡単に把握することができます。

ヒストグラムの作り方 度数分布表とは

度数分布表からヒストグラムを作成する
度数分布表からヒストグラムを作成する

ヒストグラムは度数分布表と呼ばれる表を可視化したグラフです。
そのため、ヒストグラムを作るためには、度数分布表をまずは理解する必要があります。

度数分布表とは
度数分布表とは


それでは、度数分布表とは何を表している表なのでしょうか?
そして、どのように作成されている表なのでしょうか?

まず度数分布表とは、元データから作成する表のことです。
度数分布表とは、データをある一定の区間で区切り、その区間に該当する人数を集計した表です。

例えば、先ほどの年収のデータからでは、年収を100万円単位で区切っていき、それらの区間に該当する人数を集計した表が、度数分布表と呼びます。
そして、この度数分布表を可視化したものがヒストグラムになります。

どの区間で区切ればいいの?

ヒストグラムの区間幅
ヒストグラムの区間幅

前の章で紹介したヒストグラムを実際に作る場合、どの区間で値を区切ればいいの?といった疑問が生まれるかもしれません。
結論として、一概な正解はないため、感覚的に分かりやすい区間で値を区切るということになります。

例えば、年収の一定の区間で区切る場合、300万円区切りや10万円区切りでもよいですが、大きく区切ることや小さく区切ることはそれぞれメリットとデメリットがあります。

  • 区間が大きい場合〇:データ全体の傾向を抽象的に理解できる
  • 区間が大きい場合×:具体的には理解しにくい
  • 区間が小さい場合〇:データを具体的に理解ができる
  • 区間が小さい場合×:全体の傾向を理解しにくい

そのため、感覚的に理解しやすいように年収の場合は100万円、または50万円などの値で区切ることが、適切かもしれません。
また、100万円でデータを区切りヒストグラムとして可視化した後に、データが密集している箇所に着目するために、50万円、25万円とより細かい値でデータを区切ってヒストグラムを再作成するということも考えられます。

スタージェスの公式

前の章では感覚的に理解しやすい区間で区切ることが重要だと紹介しました。
しかし、身近な感覚値が分からない場合に使う、スタージェスの公式と呼ばれる計算式が存在します。

スタージェスの公式
スタージェスの公式

区間の大きさは、データの最小値から最大値をkで割ることで求めれることができます。
ただし、小数点が出現し細かすぎる区切り方になる場合は解釈がしづらくなるため、なるべく感覚的に解釈しやすい値で区切り方を決定したほうがいいと思います。

まとめ

  • ヒストグラム
    • データがどこらへんに何件存在しているかを視覚的に把握する集計方法
    • 度数分布表から作られる
    • データのミスリードが無くなる
  • 度数分布表
    • データをある一定の区間で区切り、その区間に該当する人数を集計した表
  • データの区切り方
    • データの区切り方には、一概な正解はない
    • 感覚的に分かりやすい区間で値を区切ることが重要
    • スタージェスの公式でデータを区切る閾値を決めることが可能だが、小数点が出現し細かすぎる区切り方になる場合は解釈がしづらくなる