検索

ビッグデータの解析方法と選択のポイントとは?


ビッグデータという言葉が露出しはじめたのは2010年。すでに10年という時が過ぎ、量、速度、多様性とも想像をはるかに上回るものとなっています。しかしその有用性は十分に理解されながらも、ビジネスに活かしきれていると自信をもてる企業はほんのひと握りではないでしょうか。テラを超え、ペタの領域に入ったデータはあまりに膨大です。ここではビッグデータの基本を再確認しながら、解析の手法とビジネスへの適切な活用のための選択について解説していきます。


ビッグデータの基本

ビッグデータの定義

ビッグデータはその名の通り、大量のデータ群であるのは間違いありません。しかし、ただ量が多いだけであれば、これほど社会的な注目が集まっていることへの説明がつきません。

そもそもビッグデータとは何を指すものなのでしょうか。

総務省による「29年版 情報通信白書」で記載されている定義によると、ビッグデータに属する情報は以下の4つに分類されています。


  • 国や地方公共団体が提供する「オープンデータ」:政府や自治体が保有する公共情報

  • 企業によるデジタル化されたデータ(「知のデジタル化」):個人情報以外のビジネスや技術的なノウハウ

  • 企業のストリーミングデータ:企業が提供するIoT機器や産業施設などから収集されるデータ

  • 個人の属性に係る「パーソナルデータ」:購買行動や移動など個人に関わる情報。個人を識別できないように加工された情報も含まれる。

一方、マーケティングの分野で一般的に用いられるビッグデータの定義としては、「データベースに格納して管理することが難しい多種多様で膨大なデータ群」と見ることが多いようです。

マーケティングの分野においてはビッグデータについて明確な定義はなく、これまでのデータ管理システムでは扱いきれないほどのボリュームであるのがビッグデータとされます。

ビッグデータの情報は世界中のあらゆる場所から、日々リアルタイムで生成されています。既存のデータよりも種類や形式の幅が広く、非構造化データ・非定型的データと呼ばれる文書データ、電子メール、写真、動画などの情報も含まれます。これまでその価値が認められながらも管理しきれず、取りこぼされてきたデータについての用途が大きく広がる可能性に満ちています。


ビッグデータの内容とは何か

ビッグデータとひと口にいっても、その具体的な内容は収集される分野によって異なります。

例えばeコマースの分野であれば以下のようなデータが収集され、マーケティングや事業拡大に向けた重要なリソースとなり得ます。


  • ユーザー属性情報(エリア・性別・年齢層など)

  • 購買履歴

  • ユーザーの興味

  • 各世代の関心分野

  • 個人のポイント利用履歴

  • 位置情報


すでに新商品・サービスの開発やターゲティング広告の出稿に、ビッグデータを戦略の柱として活用している企業も少なくありません。

その他の例では、公共交通路線計画や都市計画にビッグデータが使われているケースもあります。

スマートフォンの「位置情報」を時間帯別で収集・分析し、人の集散や流れの解析に活用しています。都市の快適性向上に、ビッグデータが大きな役割を果たす時代となりました。


ビッグデータの主な解析手法

一般的に使われる頻度の高い5つの手法

ビッグデータの解析手法にはさまざまな方法がありますが、一般的には主に以下のような手法が多く用いられています。


  • クロス集計: いくつかの要素をクロス(かけ合わせ)して集計・分析を行う手法です。クロス集計はアンケートで多く使われており、例として質問への回答と年齢・性別などの属性をかけ合わせる分析などに適しています。

  • ロジスティック回帰分析: 「YES・NO」「0か1」などの2択でデータを収集することにより、事象の発生確率を予測する手法です。

  • アソシエーション分析: 一見関連性のなさそうな事象から、確率的なルールを見つけ出してデータ同士の相関関係を探る手法です。データマイニングでは代表的な手法といわれています。アソシエーション分析から派生したものには、マーケットバスケット分析などがあります。

  • 決定木分析(ディシジョンツリー): 条件分岐によってグループ分けをしていく手法です。ひとつの要素から分岐の予測を立て、それぞれの結果を求めていきます。リスクマネジメントなどで多く使われる手法です。

  • クラスター分析: 個々のデータ共通項を持ち寄り、集落(クラスター)を作って分類する手法です。散布図を使って相関関係の強弱を見出したり、個々の要素のポジションを確認したりできます。

その他の分析方法

上記の手法ほどではありませんが、利用シーンに合わせて以下のような分析法が用いられることもあります。


  • バスケット分析: アソシエーション分析から派生したデータ分析手法で、対象を購入商品に絞った分析に用いられます。ECサイトなどで、同時購入される確率の高い商品を見出すことができます。

  • 因子分析: マーケティングなどの現場において、異なるデータ同士の間の共通因子を見つけ出し、関連性を探る手法です。

  • ABC分析: 「重点分析」とも呼ばれます。商品・サービスや顧客などに対し、重要度によってランク分けするデータ分析手法です。

ビッグデータ解析のポイントと手法の選択

3つのVを知る

ビッグデータ解析を行ううえでは、以下の「3つのV」への理解が重要なポイントとなります。


Variety:データの多様性。テキスト、画像、音声といった多様な情報とファイル形式

Volume:データ量

Velocity:データ生成速度・頻度


このなかで「Velocity」が表すのはリアルタイムで収集できるデータ、秒単位などで更新される高頻度のデータといった情報更新の速度です。

3つのVのうち自分たちが行いたい分析に対してどこを重視するかを決めることで、適正なデータ収集の方向性が定まります。


分析課題の明確化

ビッグデータから必要な情報を取り出し、正しく分析をするためには、その目的が明らかになっていなければなりません。

最終的な目的は、事業に対して価値をもたらすことにあります。

現在の課題を明確化し、結果として「何をしたいのか」、そのためには「何を知りたいのか」を段階的に追っていく必要があります。

分析すること自体を目的としてしまうと、その次のステップに続かなくなります。

膨大なデータを扱うためには、先に戦略ありきであることが重要です。


解析の種類と活用の事例

解析の種類を選択するときに参考となる、活用事例を紹介していきます。


  • 詳細な属性による集計・分析をしたい 複数の条件とユーザー属性との関係を調べたいときには、「クロス集計」がおすすめです。Excelの分析機能が使えるため、一般企業でも容易に着手できます。

  • ユーザー特性にマッチしたインフォメーションの配布 「クラスター分析」を使うことにより、各顧客にマッチした案内ができるため、カスタマーエクスペリエンス向上につながります。

  • ビッグデータ解析から事象の発生率を把握したい リスク因子によって運行遅延の発生率を知る、またキャンペーンの反応率や特定商品の普及率などを確認したい場合には、「ロジスティック回帰分析」が有効です。

  • 商品陳列の効果的な配置計画 目に見えない事象の関連性を見出す手法として、「アソシエーション分析」が役立ちます。 

  • ECサイトにおける広告の最適化(リコメンド) ユーザー属性に合わせた商品選択の傾向を浮き彫りにするためには、「クラスター分析」と「アソシエーション分析」の組み合わせが適当です。

まとめ:自社にマッチしたビッグデータとの付き合い方の見極めが重要

ビッグデータは量的に膨大なだけではなく、多様性があり形状も不確定です。そのため、従来の数値的アプローチでは解析不可能な場合が多く、事業に結びつく有効なデータが得にくい傾向にあります。ビッグデータを戦略のなかに取り入れる際には、自社の事業運営向上のために必要とされるデータを見極めて、収集することが重要です。また収集したデータについては、その分析法の選択、および組み合わせの十分な検討が求められます。


参考:


===============

調査結果:企業のビジネス変革に関する調査結果を発表: ビジネス変革を推し進める創造的破壊の波とデジタル化

Blog:新しいAs-a-serviceモデルのVantageによる簡素化とモダナイゼーション

製品:Teradata Vantage:利用可能なデータのすべてを使用してリアルタイムのビジネスインテリジェンスを大規模に明らかに

資料:Vantageをゲームチェンジャーにする差別化要因トップ 10