検索

【TU-5】楽天のビッグデータ・インテリジェンス・エコシステムおよびテクノロジーによる価値の提供|楽天株式会社


【Teradata Universe Tokyo 2017イベントレポート】

前半のテクノロジーセッションの最後に、楽天株式会社 データインテリジェンステクノロジー部の馬学彬氏から「楽天のビッグデータ・インテリジェンス・エコシステムおよびテクノロジーによる価値の提供」というタイトルで、どのように同社のアナリティクス・エコシステムを構築し、ビジネス・ニーズを満たすデータを提供しているかについて、実例を交えた紹介があった。

馬氏は、東京大学で機械学習とパターン認識による音声処理の研究で博士号を取得したのち、楽天に入社。アーキテクチャーとコアテクノロジーの部門に配属されて、システムアーキテクチャーに取り組み、その後データサイエンス部の創設メンバーとなったアナリティクスのプロフェッショナルである。

楽天の事業紹介

楽天は20年前の1997年に創立された。社内には日本人以外も多いグローバル企業であり、社内公用語は英語である。従業員数は14,000人を超え、時価総額は約2045億円に達する。

1億人強の会員に向けて、70個以上のサービスを提供。その内容は、マーケットプレイスである楽天市場の他に、旅行、銀行、保険、スポーツなど多岐にわたる。会員になれば、これらの様々なサービスが利用でき、利用に応じて共通の「楽天スーパーポイント」を獲得することができる。スーパーポイントは、電子通貨であるEdyに変更することもできる。また、楽天カード、楽天市場アプリ、モバイルなど利用形態に応じて、最大7倍のポイントアッププログラムもある。

これらの取り組みの結果、楽天スーパーポイントは、第三者機関による調査で「一番ためたいポイント」、「もらって一番うれしいポイント」という評価を得ている。

楽天市場の出店店舗数は44,000店を超え、食品、ファッション、電気製品、インテリアおよび自動車などあらゆる商品カテゴリーが揃っている。国内グループサービスの年間取扱高は8.8兆円、サービスのクロス利用率は62.7%となっている。

楽天データバリューチェーン

事業から得られるデータは膨大であり、Eコマース、FinTech、広告および投資情報など様々な種類のデータが集まってくる。楽天では、これらのデータを収集し、整理し、ビッグデータとして使用する。この「収集」「整理」「使用」の3ステップを「楽天データバリューチェーン」と呼んでいる。

  1. 収集ステップ 最初のデータ収集ステップでは、データをサービスデータと行動データの2つに分類する。 サービスデータは様々なソリューションから収集される。データソースも様々で、RDB、NoSQL、SAPやSalesforceのDB等がある。その中から、最も使われているデータソリューションで最もニーズの高いデータをTeradataのDWH(楽天スーパーDB)に格納している。 行動データは、顧客を深く理解し、新しくより良いUIとUXを提供するために活用しているデータで、各サービスの行動データを集めてHadoopに格納している。そのためのツール類は社内で開発した。

  2. 整理ステップ 続くデータ整理ステップでは、サービスごとにデータマートを構築し、ユーザーが使いやすいようにしている。データマートは、テラデータのコンサルタントと協力して、ビジネスやマーケティングのニーズに応じて作り込んでいる。 Hadoopに格納されている行動データは、オープンソースの検索ツールElasticsearchとBIツールKibanaを使って可視化。また、Sparkで処理したデータとそれを利用するためのAPIをデータ・サイエンティストに提供している。さらにPrestoを使ってTeradataとHadoopからデータを収集している。

  3. 使用ステップ 最後のデータ使用ステップでは、経営者に対してはダッシュボードのDOMOで KPIの達成状況をレポートしている。 データを直接見たい社員に対しては、tableauなどのBIツールで見られるようにしたり、Eメール等で直接データを提供したりしている。またクライアントに対しては、Asterを活用した分析で、迅速な価値提供を図っている。

収集から使用までの全ステップにわたって、一貫したデータ・ガバナンスが必要である。データガバナンスチームの統率の下、セキュリティポリシーや法律等に遵守する形で、データを適切に収集し、使用するようにしている。

また、3つのステップが密接に関わっているので、フィードバックループが非常に重要となる。新しい技術とサービスを活用して、アーキテクチャーを常に改善し続けている。

価値提供の強化

たとえば、顧客が購買を決めかねているのであれば、クーポンを配布して次の行動を促すようなことが必要である。このようなアプローチを可能にするのが、リアルタイムのデータ収集であると馬氏は言う。

行動データは、サーバーサイド・データ処理パイプラインであるlogstashに格納され、そこからビッグデータ処理ツールのkafkaに送られる。kafkaからは2つの流れがある。

1つはSparkに送る流れで、そのデータはElastic社のツール類(ElasticsearchとKibana)で可視化される。また、蓄積のためにHadoopにも送られる。

もう1つは、Sparkではなく、ストリームデータ処理基盤STORMのクラスタにデータを送る流れだ。そのデータは全てNoSQLデータベースのRedisに格納し、顧客と商品の情報に直接アクセスできるAPIを提供する。

また、顧客への価値提供を加速するために、集中型カスタマープラットフォーム「Rakuten CustomerDNA」を開発し、様々なサービスから顧客情報を取得することができるようにした。これによって、顧客がどういうものを買う傾向が強いかが分かり、キャンペーンのターゲットを抽出すること等ができる。

顧客情報に空白があっても、機械学習によってその項目の内容を予見することができる。たとえば、「マネジメントの本をたくさん買っている」、「出張で使用するホテルが高級」などの情報から、サラリーマンでマネージャーしかも高所得といった情報を追加して、空白を埋めることができるのだという。

もちろん顧客のUI/UXの改善のためにも利用している。購入履歴による商品のレコメンドなどWebサイトのパーソナル化はもちろん、メールやバナー広告の開封率やクリック率の向上を図っている。たとえば、ペットを飼っている顧客に対して、楽天トラベルから「ペット連れで泊まりやすいホテル」の情報をEメールで送ったところ、Eメール開封率が5%向上し、クリック率は286%向上した。

顧客の行動促進のためにコンテンツを最適化したい場合には、バンディットアルゴリズムを採用している。これは強化学習の一種で、限られた試行回数で最適な選択肢を選び、トータルの報酬を最大化したいときに使われる。よく使われるA/Bテストよりも迅速に結果が出るため機会損失が少ない。

たとえば、楽天スーパーSALEのLPO(ランディングページ最適化)では、バンディットアルゴリズムを利用して、8つの顧客クラスタごとに、6パターンのランディングページから最適なものを自動的に割り振った。結果として、コンバージョン率が5%上昇し、それだけでなく多くの顧客インサイトを獲得できているという。

Teradata Universe Tokyo 2017イベントレポート特集ページはこちら。