アソシエーション分析を使えば第2のビールとおむつの関係が分かる?!

こんにちは!
IT企業に勤めて、約2年間でデータサイエンティストになったごぼちゃん(@XB37q)です! 

このコラムでは、アソシエーション分析という分析手法を紹介します。
アソシエーション分析は、確率をもとにした考え方のため理解がしやすい手法だと思います。

また、アソシエーション分析は、バスケット分析とも呼ばれることがありますが、このコラムではアソシエーション分析という言葉を使って紹介していきます。

アソシエーション分析のイメージをつかむ

POSデータ
POSデータ

アソシエーション分析とは、物事が同時に起きる確率を求める手法です。
物事が同時に起きる確率が分かれば、「もしこうしたら、こうなるだろう」という関連性を見つけ出すことが可能になります!

アソシエーション分析はPOS(Point Of Sales)データに対してよく使われ、一度の購買(レシート)で、どの商品とどの商品を買ったのかというデータから、頻繁に購入される「商品の組合せ」を見つけることが可能です。
POSデータとは、誰が何を買ったのかという履歴のデータです。
「バスケット=かご」の中身を分析して、購買行動を探るという意味でアソシエーション分析は「バスケット分析」とも呼ばれます。

また、頻繁に購入される「商品の組合せ」を見つけることができれば、商品の陳列を変更する(おむつとビールを近くに置く)などの改善策を考えることで、マーケティングに活用することができます。

このように「アソシエーション分析」はPOSデータを使う業界で多く使われます。

アソシエーション分析の使い方を知る

アソシエーション分析のイメージ
アソシエーション分析のイメージ

アソシエーション分析の事例として、「ビール」と「おむつ」の関係があります。

アメリカの小売店でPOSデータを分析したところ「ビール」と「おむつ」が一緒に買われやすいという結果がわかり、「ビール」と「おむつ」を隣に陳列してみたところ売り上げが伸びた

というエピソードです。
このエピソードを聞いたことがある人は多いと思いますが、これはアソシエーション分析が有用な分析手法として知られている証拠でしょう。
上図「アソシエーション分析のイメージ」から、おむつとビールが同時に購入される確率は高く、次にシャンプーとリンスが同時に購入される確率が高いということが分かります。

POSデータの形式

POSデータを使ったアソシエーション分析では、2種類の使い方があると考えています。

  1. 商品ごとのPOSデータ
  2. 商品カテゴリごとのPOSデータ

商品ごとのPOSデータでは、どの商品Xとどの商品Yが同時に買われやすいかというように、詳細な分析結果を得ることができます。しかし、商品数が多すぎる場合、それぞれの商品が同時に購入される件数が小さくなってしまい、同時に買われる確率が正しく算出できない場合があります。

一方で、商品カテゴリごとのPOSデータでは、それぞれの商品カテゴリが同時に購入される件数が大きくなり、同時に買われる確率を正しく算出しやすいです。
しかし、商品ごとの分析と比較して、詳細な分析結果を得ることが不可能になります。

分析対象のデータ形式について、完全な正解は存在せず、分析の目的によって、適切なデータ形式は変わります。
どのような組合せが同時に買われやすいかといった内容を大きく得たい場合は商品カテゴリごとの分析をすべきですし、他の商品の売り上げの促進に貢献しているある特定の商品を見つけ出したいといった場合には商品ごとの分析が必要となってくるでしょう。

また、商品カテゴリと言っても、「魚介類」といった商品カテゴリや「海魚」といった商品カテゴリなど、さまざまなカテゴリの分け方があります。
このカテゴリの分け方も、得たい分析結果に合わせて設定することが重要になります。

また、POSデータの他に、アソシエーション分析は下記のような使い方が考えられます。

  • 副作用の発現データから、ある副作用Xが発現した場合に、違う副作用Yも発現する割合を確認し、副作用同士の関連性を把握する

アソシエーション分析の考え方を理解する ~リフト値~

リフト値のイメージ
リフト値のイメージ

それでは、この章からアソシエーション分析の考え方を紹介します。
まずは、アソシエーション分析の考え方を理解するために、「リフト値」という単語を紹介しましょう。

リフト値は、その物事が起こりやすいかを求める値です。
そのため、「リフト値が高い=その物事が”起こりやすい”」ということになります。
アソシエーション分析は「同時に起こる確率」を見つける分析手法のため、重要となる指標が「リフト値」になります。

例えば、ある商品xの購買が他の商品yの購買とどの程度関係しているのかを表します。
また、英単語である”lift”は”持ち上げる”という意味があり、リフト値は商品xの購買が商品yの購買をどの程度”持ち上げる”かを示す指標とも言えます。
ここでいう”持ち上げる”は、”促進させる”と言い換えることもできます。

リフト値が大きければ大きいほど、商品xの購買が商品yの購買を”持ち上げて”いるため、より同時に買われる確率が高くなると解釈することができます。

アソシエーション分析の考え方を理解する ~支持度と確信度~

信頼度と支持度
信頼度と支持度

この章では、アソシエーション分析に関連する他の指標を紹介します。

「リフト値」という指標は、「支持度」と「確信度」と同時に説明されます。
POSデータを使った場合の指標の意味と式を考えてみましょう。

  • 信頼度:商品xを購買した場合に、商品yを購買する確率

$$ 信頼度 = \frac{XとYを同時に買った人の確率}{Xだけを買った人の確率} $$

  • 支持度:すべての購買履歴のうち商品xと商品yが一緒に購買されている確率

$$ 支持度 = \frac{XとYを同時に買った人の確率}{XもしくはYを買った人の確率} $$

そして、「信頼度」を「商品yが買われる確率」で割った値が、「リフト値」です。
リフト値の式は、次のようになります。

$$ リフト値 = \frac{信頼度}{商品yが買われる確率} $$

つまり、リフト値は、「xが買われたときにyも買われる確率」を「全体でyが買われる確率」で割った値です。

リフト値はPOSデータだけでなく、様々な場面で使われることがあります。
リフト値を一般化すると次のように書くことができ、POSデータの場合は、条件Xが「xが買われた」になり、事象Yの割合が「yが買われる確率」になります。

$$ リフト値 = \frac{条件Xのときの事象Yの割合}{全体での事象Yの割合} $$

つまり、「リフト値が高い」ということは条件Xのときに事象Yが起こりやすいということを示しています。
このように一般化すると「リフト値」の考え方は様々な場面で活用することができます。

まとめ

  • アソシエーション分析
    • 物事が同時に起きる確率を求める手法
    • POS(Point Of Sales)データに対してよく使われ
    • 一度の購買(レシート)で、どの商品とどの商品を買ったのかというデータから、頻繁に購入される「商品の組合せ」を見つけることが可能
    • バスケット=かご」の中身を分析し、購買行動を探るという意味で「バスケット分析」とも呼ばれる
  • データの形式
    • 商品ごとのPOSデータ
      • どの商品Xとどの商品Yが同時に買われやすいかというように、詳細な分析結果を得ることが可能
      • 商品数が多すぎる場合、それぞれの商品が同時に購入される件数が小さくなってしまい、同時に買われる確率が正しく算出できない場合があ
    • 商品カテゴリごとのPOSデータ
      • それぞれの商品カテゴリが同時に購入される件数が大きくなり、同時に買われる確率を正しく算出しやすい
      • 商品ごとの分析と比較して、詳細な分析結果を得ることが不可能
    • 分析対象のデータ形式について、完全な正解は存在せず、分析の目的によって、適切なデータ形式は変わ
  • リフト値
    • その物事が起こりやすいかを求める指標
    • 商品xの購買が商品yの購買をどの程度”持ち上げる”かを示す指標
    • リフト値が高い=その物事が”起こりやすい”
    • 「信頼度」を「商品yが買われる確率」で割った値
  • 信頼度
    • 商品xを購買した場合に、商品yを購買する確率
    • XとYを同時に買った人の確率 / Xだけを買った人の確率
  • 支持度
    • すべての購買履歴のうち商品xと商品yが一緒に購買されている確率
    • XとYを同時に買った人の確率 / XもしくはYを買った人の確率

アソシエーション分析を使えば第2のビールとおむつの関係が分かる?!” に対して1件のコメントがあります。

コメントは受け付けていません。