統計学を正しく使う!簡単に理解する相関関係と因果関係の違い

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、相関関係と因果関係の違いを紹介します!
因果関係があるかどうかは、データだけでは判断できないことに注意してください!

おさらい 相関とは

相関とは
相関とは

相関とは物事と物事の直線的な関係性のことです。
例えば、身長が高い人ほど体重が重くなるという直線的な関係がある場合、身長と体重には相関があると呼びます。

細かい内容については、他のコラム「データの直線的な関係を見つける 相関係数と散布図」をご覧ください。

因果とは

因果関係とは
因果関係とは

因果とは原因とそれによって生ずる結果の関係のことです。

例えば、毎日たくさん食べると太ることは因果関係にあります。
原因:たくさん食べる
結果:太る

相関と因果の関係

相関関係と因果関係
相関関係と因果関係

相関関係にあっても、それが因果関係にあるとは限りません。
相関関係の中でも、原因と結果を表している関係が因果関係と言われます。

相関と因果の違いを例で説明します。
例:「趣味が盆栽という人ほど、お金持ちの傾向がある」
盆栽とお金持ちは相関があります。
このような関係性の場合、盆栽を趣味にすればお金持ちになるというわけではありません。
盆栽が趣味の人は、高齢な方に多いと思います。
そして、年齢が高ければそれだけ年収や貯蓄も多いことから、「趣味が盆栽の人ほど、お金持ちの傾向がある」と勘違いしてしまう場合があります。

相関関係が出る4つの原因

相関関係がある4つの原因
相関関係がある4つの原因

2つの事象に相関関係が出る場合、4つの原因があります。
どれかを定量的に判断することは不可能のため、2つの事象同士の関係に詳しい人が、推測する必要があります。
それでは、上記4つの原因をそれぞれ紹介していきます。

①原因と結果の関係にある ②結果と原因の関係にある
因果関係にある場合です。
どちらかが原因であり、どちらかがその結果の関係の場合があります。

③偶然である
相関関係が偶然出てしまった場合があります。
例えば、データの量が少ない場合は相関係数の信頼度も低くなるため、偶然性を疑ったほうがいい場面があります。

④共通の要因がある
2つの事象に共通の要因がある場合です。
例えば、コーヒーと肺がんには相関があるとしましょう。
この場合は、コーヒーを飲んだら肺がんになるのではありません。
コーヒーを飲む人はたばこを吸う人が多く、このたばこが原因で肺がんの結果になりやすいという場合があります。

以上4つの原因がある場合に、相関係数が高くなるため、相関関係にあるからといって一概に分析を進めていくのは要注意です。

まとめ

  • 相関
    • 物事と物事の直線的な関係性のこと
  • 因果
    • 原因とそれによって生ずる結果の関係のこと
  • 相関と因果の関係性
    1. 原因と結果の関係にある
    2. 結果と原因の関係にある
    3. 偶然である
    4. 共通の要因がある