次元削減と無相関化!主成分分析の固有値と寄与率の違い!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、主成分分析についての基本を紹介しています。
主成分分析はAI手法の1つであり、次元削減や無相関化などの特徴があり、様々な場面で使うことが出来ます!

主成分分析とは

主成分分析とは
主成分分析とは

主成分分析は、データに存在する多い項目を少ない項目で表す手法です。
このような分析手法を「次元削減」と呼ぶこともあります。

主成分分析を図で表すと、上記の図のように、全データを表す線を引くイメージになります。
各点はそれぞれのデータを表しており、主成分分析の実行後に引かれた黒い線は、主成分軸と呼ばれます。

多い項目を少ない項目で表すことができれば、データ全体の雰囲気を視覚化することが可能です。
視覚化により、データが持つ情報を解釈しやすくなります。

主成分分析のもう一つの特徴 無相関化

無相関化とは
無相関化とは

主成分分析は、先ほど表した「次元削減」だけでなく、もう一つの特徴があります。
それが、無相関化です。

2つの項目が相関を持っている場合、それら2つの項目を主成分分析をすることで、その2つの項目は相関を持たなくなります。

この特徴は、回帰分析を行う多重共線性が発生する場合に有効です。
2つの項目が相関を持っているため、多重共線性が発生しているならば、主成分分析を行うことで、相関を持たなくなるため、多重共線性を防ぐことが可能です。

主成分軸の決め方

主成分軸とは
主成分軸とは

主成分軸は、全データのばらつきを最大にするように引かれています。
データのばらつきのことを、統計学では分散と呼びます。
主成分軸は元データに存在する項目の数だけ引くことが可能です。
つまり、10個の項目があれば、最大で10個の主成分軸を引くことが可能です。

分散が最大の箇所で引いた1番目の主成分軸を、第1主成分軸と呼び、それ以降の線は第2主成分軸、第3主成分軸・・・と呼びます。
また、2番目に引いた線は、1番目に引いた線の次にばらつきを大きくするように線を引きます。
2番目の引く線は、1番目に引いた線に直角になるように線が引かれることが多いです。

結果の解釈

主成分分析の実行後には、寄与率と主成分得点と固有値という3つの結果が出力されます。
それぞれに意味があり、それぞれの指標は関係しあっています。
1つずつ紹介していきましょう!

寄与率

寄与率とは
寄与率とは

まずは寄与率です。
寄与率は、どのくらいデータを表すことが出来ているかを表します。
上図のように主成分軸一つで表すことができている割合ということになります。

データが10項目あり、10本の主成分軸を引く場合、10本の主成分軸を合計すればデータの100%を説明することができます。
また、2本の主成分軸を引くのみだと、データの100%を説明することは不可能です。
主成分分析は情報を要約しているだけのため、このように失ってしまう情報は必ず存在します。
何本の主成分軸で元データの情報をどれだけ表すことができているのか、何本の主成分軸を使用しようかと考える場合、寄与率を使用することが可能です。

主成分得点

主成分得点とは
主成分得点とは

主成分得点とは、主成分軸を基にデータを回転させた場合の座標を表します。
上図のように、第1主成分軸と第2主成分軸をもとにデータを回転させた場合、各データの座標になります。

固有値

固有値とは
固有値とは

固有値とは、データの分散の大きさを表します。
つまり、固有値が大きいほど、データの分散をよく説明していることを表し、データの特徴を捉えていると解釈が可能です。

まとめ

  • 主成分分析は「次元削減」「無相関化」の特徴を持つ手法
  • 次元削減
    • データに存在する多い項目を少ない項目で表す手法
  • 無相関化
    • 2つの項目が相関を持っている場合、それら2つの項目を主成分分析をすることで、その2つの項目は相関を持たなくなる
  • 主成分軸は、全データのばらつきを最大にするように引かれる
  • 寄与率
    • どのくらいデータを表すことが出来ているかを表す
  • 主成分得点
    • 主成分軸を基にデータを回転させた場合の座標を表す
  • 固有値
    • データの分散の大きさを表す

参考図書