検索

テラデータが実践するデータサイエンス例:オンラインショッピングにおける行動予測


本ブログではオンラインショッピングの分析アプローチ例を題材に、データサイエンスの活用イメージをご紹介する。

テラデータでは日本国内でもEコマース、流通業、通信事業、製造業など様々な業種においてデータサイエンスを活用したビジネス課題の解決を支援している。今回は読者の方々にも身近な書籍(今回は洋書)のオンラインショッピングにあてはめた「購買におけるユーザー行動予測」を題材に、実際にテラデータのコンサルタント、データサイエンティストがどのようにデータサイエンスを適用しているのか、少しでもイメージいただきたいと考えている。 ユーザー行動予測とは、個々のユーザーが購入しそうな商品を予測していくことだ。具体的な応用例で言うと、オンラインショッピングのサイトでよく見られる、「よく一緒に購入されている商品」「この商品を買った人はこんな商品も買っています」といったレコメンドのスペースに購入されやすい商品を選び出す機能である。

「アソシエーション分析」と「コサイン分析」

今回ユーザー行動予測の手法として紹介するのは、「アソシエーション分析」と「コサイン分析」(コサイン類似度の分析)の2種類。まずは「定型的な分析」、ビジネス課題の答えを見つける分析手法がほぼ定型化している分析戦略を紹介する。後半はビジネス課題解決手法が定型的ではなく、試行錯誤で取り組んでいく分析戦略(非定型的な分析)を紹介する。

今回使用するデータはとあるオンラインショップの洋書データ(サンプルデータ)である。レコード数は1000万件、ユーザー数は50万件、商品数は10万点のデータ数となる。本ブログの目的はあくまでも「分析手法のイメージを持っていただくこと」であり、データ分析結果として得られた知見などが一般的に事実になることを保証するものでは全くないことをご承知おきいただきたい。

集団として予測する「アソシエーション分析」

▲点と点をつなぐ線が太いほど、相関関係が強い

ビジネス課題解決をほぼ定型的にできるのがアソシエーション分析だ。「Aを買った人はBも買う」という行動の予測をおこなう分析である。書籍販売の鉄板は「シリーズもの」。シリーズで購入する人が多いため、「鉄板のアソシエーションルール」と言える。図では「Aを買った人はBを買う」という予測を各ノード間の矢印で表している。矢印が太いほど強固なアソシエーションルールであり、より確かな販促ができることになる。

シリーズ以外にも、無関係と思われる2商品の間で相関関係が生まれることがある。例えば、図にある「Walking Disaster(Jamie McGuire著)」という本を買った人は「Real(Katy Evans著)」も購入するという高い相関関係があるが、逆向きは低い。一方向の相関関係しかない場合もあるということだ。こういうAを買うとBも買うという関係が見つかると販促につなげやすい。

アソシエーション分析のポイントは、相関関係の理由がわからなくても分析結果を活用できる点だ。工場などの機械の故障予測にも適用でき「この現象が起きるとここが故障しやすい」と予測するプロジェクトも活用が可能だ。人間には予想しえない相関関係が見つかることもある。

個別に予測する「コサイン類似度」

「コサイン分析」(コサイン類似度の分析)の用途はアソシエーション分析と似ており、主に購入されやすいレコメンデーションを見つけ出す目的で利用される。ただアソシエーション分析が「Aを買う人々はBを買う」という集団の予測に対して、コサイン分析はユーザー個別に予測するアプローチである点が異なる。

アソシエーション分析は相関関係の理由付けは不要だったが、コサイン分析においては例えば商品とユーザーにさまざまなタグをつけていき、お互いの類似性を根拠にしてレコメンデーションを決定することになる。

▲商品やユーザーに対してプロファイルを作成する

まずはユーザーのプロファイルから見てみよう。2013年の購買データでユーザーモデルを作成し、2014年に購入されそうな本を予測する。例えば、「ユーザー1はRomance(ロマンス作品)が36ポイント、Contemporary(コンテンポラリー作品)が24ポイント」といった具合だ。Romanceのジャンルが好きなある女性は「Romance」のタグが付いた本を買いやすく、「Thrillers & Suspense(スリラー&サスペンス作品)」タグが付いたスリラー本はあまり買わないと予測できる。ここでは2冊を例に出したが、実際には何千冊も計算していく。コサイン分析のメリットはコサイン類似度によって、ユーザーごとに好みの商品を予測できることにある。

▲購買数と非購買数をグラフで見る

この図にあるグラフは、先のロマンス作品が好きな女性のコサイン値(好み類似度)を各商品に当てて可視化したものだ。横軸の数値が大きいほど、このユーザーの好みに類似した本であり、小さいほど好みから乖離している。青い線が「非購買数」、オレンジが「購買数」。このグラフでは、コサイン値が大きいものがより購入されており、「購買されやすい本の予測」が上手く機能していることが分かる。予測精度の評価の一つとして効果量を使う。これは非購買数の平均と、購買数の平均の差を取ったもので、効果量が大きいほど予測精度が高いと評価できる。予測モデルの精度を表す指表の効果量については、この後の説明でも使用する。

さまざまなビジネス課題を検証

パターン化されていない分析、つまりビジネス課題解決手法が定型的ではない場合について考えみる。仮説検証項目を立てていき、各仮説検証項目について「イエス」か「ノー」を見極めていく分析戦略である。ここでは例としてコサイン類似度をベースに、4つの仮説検証を行なっていく。

検証1「顧客の嗜好を予測可能か?」

答えはYesである。コサイン類似度により個別に予測可能であると答えられる。

検証2「作った購買予測モデルは永続的に予測精度を保つか?」

答えはNoとなった。2007年のデータから購買予測モデルを作り、翌年の購買結果を検証すると予測精度は20.1%となるが、6年後の2013年では、購買検証結果が17.2%と予測精度が低下した。予測精度はコサイン類似度の説明で使用した「効果量」のことで、コサイン類似度では、購買予測モデルを作成してから時間がたつと予測精度が下がった。そのため、予測モデルを定期的に更新していくことが必要であることが分かる。

▲時間の経過とともに予測精度が低下する

検証3「購買予測モデルが変化したら後手対応可能か?」

2012年のデータでモデルを作り直したところ、効果量がアップしたので、Yesとなる。

先回りで予測するために分析方法を変える

検証4「嗜好の変化を先回りで予測可能か?」

この問いに答えるために、ユーザーの好みが経時で変化すると仮定して、ユーザーを嗜好ごとにグループ分けし、将来的に嗜好の行き先を予測することができると仮定する。そして、ユーザーをグループ分けしてパス分析を利用する。パス分析では2005年、2010年、2015年の3つのタイムラインでグループ分けを作成した。

▲ユーザーをグループ分けして、嗜好の変化を可視化する「パス分析」

各ユーザーの購買履歴を元に最も多く購入したジャンルを代表ジャンルと置く。あるユーザーの場合、上図のように2005年は「Children’s Books(子供向け作品)」、2010年と2015年には「SciFi & Fantasy(サイエンスフィクション&ファンタジー作品)」が代表ジャンルとなる。これを200人ほどを同じようにグループ分けして、パス分析を実行する。

パス分析結果として産出されたサンキー図を見ると、2005年に「Growing Up & Facts of Life」や「Children’s Books」を多く購入していたグループは5年後の2010年になると「SciFi & Fantasy」をもっとも多く購入していた。これを見ると、子どもが読む「Children’s Books」や「Growing Up & Facts of Life」を多く購入している人は、その後「SciFi & Fantasy」に行く率が高いというインサイトが得られる。さらにここにデータに購買者年齢(読者自身ではなく親の年齢の可能性あり)を加える。そうすると、「Growing Up & Facts of Life」の購入者年齢中央値は28歳、「Children’s Books」が31歳、「SciFi & Fantasy」が38歳であった。ここから経年嗜好変化は年齢による可能性があるというインサイトが得られる。それと同時に、検証4「先回りで検証可能か?」という問いにはYesと答えられる部分が認められる。

本ブログでは、データサイエンスを活用することで、ビジネス課題解決に対して定型的に答えを出せる分析戦略、ビジネス課題を解決する手法を非定型で探索的に泥臭く分析していく戦略を紹介した。今回提示したようなアプローチは、様々なビジネス課題にマッチした分析が可能である。今回題材のEコマース、リテールに限らず製造業・通信業などの故障予測や効率化など多岐に渡り適用することが可能である。今後も我々テラデータはデータサイエンスの有用性をお客様と共に体現しながら世に広めていきたいと考えている。

==========================

著者プロフィール

徳田 暁

テラデータ・コンサルティング本部

シニア・データサイエンティスト

ヒューマン・ファクター心理学博士(米国ウィチタ大学)。Eコマース、リテール、通信事業、製造業などで研究や分析業務を実施。趣味は洋書のオーディオブックの視聴。

#Vantage #分析 #テラデータ #データサイエンス