データの直線的な関係を見つける!相関係数と散布図

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、データ同士の直線的な関係を見つける方法である「相関係数」と「散布図」に対する記事を紹介しています。

直線的な関係とは

相関とは
相関とは

まず初めに、データ同士の直線的な関係とは何を思い浮かべるでしょうか?
ここでは単純な例を挙げて、直線的な関係を紹介します。
この例では、横軸に数学の点数、縦軸に国語の点数を表しているため、数学と国語の点数同士に直線的な関係があるかを見ていきます。つまり、直線的な関係とは数学の点数が上がったら国語の点数も上がる、もしくは数学の点数が下がったら国語の点数も下がるといった関係のことを指しています。

ではこのような直線的な関係が分かると何がよいのでしょうか?
数学と国語の例ならば、数学が得意な人は勉強科目全般が得意のため、国語の点数が上がっているという考えや、数学と社会に直線的な関係がない場合に数学と国語に直線的な関係がみられる場合は、数学と国語は何か似たような特性があるのではないかという考えを持つことができます。
また、ビジネスでは売上と直線的な関係を持つデータを見つけることで、売上を伸ばす施策を新たに考えることができるかもしれません。

このように、統計学では直線的な関係を見つけることが多くあります。次の章からはこの直線的な関係を見つけるための方法を紹介します。

相関係数

まず初めに相関係数を紹介します。
相関という言葉は聞いたことがある人は多いかもしれません。
相関とは物事と物事に直線的な関係があることを指します。つまり、前の章で説明していた関係のことを相関と呼びます。
そして、相関係数とはこの相関があるかないかを判断するための指標の1つです。

相関相関係数
相関がない0 <= 相関係数 < 0.2
弱い相関がある0.2 <= 相関係数 < 0.4
相関がある0.4 <= 相関係数 < 0.7
強い相関がある0.7 <= 相関係数 < 1.0
相関係数と相関の関係

それでは相関係数とはどのように求めていく値なのでしょうか?
相関係数は次の式で求めることができます。
標準偏差についての説明は相関係数を説明するときにポイントではないため、説明は割愛しますが、標準偏差は必ず正の値(0以上)になります。

相関係数の算出式
相関係数の算出式

上記にある相関係数の算出式から見て分かる通り、相関係数が正の値になる場合は、身長と体重の共分散が正になるときです。
つまり、(身長 – 平均身長)と(体重 – 平均体重)が同じ符号(正と正 or 負と負)になる場合に、相関係数が正の値になります。

相関係数の考え方1
相関係数の考え方1

図でこの関係を考えてみましょう。
まずは相関係数の考え方1を見てください。
この赤線は身長と体重の平均値を表しています。
この図で考えると、第1象限は身長が平均よりも大きいため、(身長 – 平均身長) > 0。
体重が平均よりも大きいため、(体重 – 平均体重) > 0となり、正と正になるため相関係数が正の値になります。
また、第3象限の場合も同様に負と負になるため、相関係数が正の値になります。

相関係数の考え方2
相関係数の考え方2

つまり、第1象限と第3象限にデータがある場合は、共分散が必ず正の値になり、データが多ければ多いほど大きい値になります。
そのため、相関係数は大きくなることで、強い正の相関があるということが判断できると思います。
また、第2象限と第4象限にデータがある場合は、共分散が必ず負の値になり、データが多ければ多いほど大きい値になります。
そのため、相関係数は強い負に相関があるということが判断できます

相関係数が小さい場合はどのような場合でしょうか?
第1象限と第2象限にデータが多い場合、共分散は正の値と負の値が入り混じることになり、値同士が打ち消し合うことでにより、共分散は小さくなります。

散布図

散布図の使い方
散布図の使い方

散布図を使って、相関を視覚化することができます。
2つの軸のに該当するデータをプロットすると、直線的な関係があるかどうかを視覚的に確認することができます。

相関係数は直線的な関係を表す指標です。
そのため、相関係数が低い場合でも散布図を使って視覚化することにより、直線的ではない関係性を見つけることもできる場合があります。
相関関係があるかどうかを確認する場合、必ず散布図を使って相関関係を確認してください!

データの直線的な関係を見つける!相関係数と散布図” に対して1件のコメントがあります。

コメントは受け付けていません。