単語の特徴度合いを表す補完類似度を解説!テキストマイニングで活用できる値!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です!

このコラムでは、補完類似度について紹介しています。

補完類似度とは

補完類似度とは
補完類似度とは

補完類似度は、単語の出現頻度から、全体における対象単語 $w_{i}$ の出現頻度と、項目 $r_{i}$ における出現確率を考慮し、項目における対象単語の特徴度を表す値です。

例えば、性別ごとに特徴的な単語を抽出したい場合や、年齢ごとに特徴的な単語を抽出したい場合、それぞれの項目の単語の出現頻度が異なるため、単純に頻度を比較することができません。
このような場合、補完類似度を使用することにより、異なる出現頻度を考慮して、特徴的な単語を抽出することが可能です。

補完類似度は、分子の次元数が分母の次元数よりも大きいため、分母よりも分子$( ad − bc )$の値を重視する傾向があります。
また、パラメータは、$d$ が他のパラメータより非常に大きな値を示す傾向にあり,このため $ad$ は $bc$ と比較し非常に大きな値となりやすいです。
上記の理由から、補完類似度は$ad$を重視するような値と考えられます。

補完類似度の分子の解釈

補完類似度の式を読み解く
補完類似度の式を読み解く

補完類似度の式は複雑に見えますが、項目と単語の比率を考えると分かりやすいです。

$ad-bc$が正の場合、項目$r_{i}$において、他の項目と対象単語が出現する割合が高いため、特徴的であると判断します。

まとめ

  • 補完類似度は、単語の出現頻度から、全体における対象単語 $w_{i}$ の出現頻度と、項目 $r_{i}$ における出現確率を考慮し、項目における対象単語の特徴度を表す値
  • 補完類似度は$ad$を重視するような値
  • $ad-bc$が正の場合、項目$r_{i}$において、他の項目と対象単語が出現する割合が高いため、特徴的であると判断