検索

Teradata Vantageを活用したデータサイエンス


アナリティクスは企業にとって欠かせないプロセスとなっているが、アナリティクスツールに投資するのではなく、ビジネスに価値を生む「答え」に投資する時代へと移り変わろうとしている。「答え」を見いだすためにテラデータが新しいプラットフォームとして提供するソフトウェアが「Teradata Vantage」だ。Teradata Vantageとは何か、これを活用して実際に「答え」を見つけだすにはどうしたらいいか、具体的に解説する。

Teradata VantageはデータサイエンティストとIT部門の架け橋

アナリティクスの実践において、データサイエンティストとIT部門は役割が異なるので、当然ツールに対するニーズも異なる。

データサイエンティストは、データ準備の作業は時間をかけずに、すぐに分析に取りかかりたいし、好みのツールや言語を使いたい。複数フォーマットのデータを簡単に統合したいし、探索的に分析を繰り返し実施したい。一方、IT部門は、ビジネスの機会を失わないために分析環境を提供するまでの時間を短縮したいし、運用コストを低減したい。エンドユーザーの要求を実現したいし、セキュリティも堅固にしたい。

データサイエンティストとIT部門のニーズは相反するものではないが、その両方を満たすソリューションが今まで存在しなかった。そこで、テラデータは、この両方のニーズを満たすソリューションとしてTeradata Vantageを提供する。Teradata Vantageは、ニーズの食いちがいから反発しやすかったデータサイエンティストとIT部門の架け橋となるだろう。

Teradata Vantageのビジョン

Teradata Vantageは、分析ツール、分析言語、分析エンジン、データストレージから構成される(図)。

分析ツールとしては、Jupyter Notebook、R Studio、Teradata Studio、Teradata AppCenterなどが使用できる。今後、Dataiku、SAS、KNIMEなども追加されていく予定だ。

分析言語としては、SQL、Python、Rが使用できる。これらはAppCenterのような分析ツールの中で使うこともできるし、外から使うこともできるし、分析エンジンの中で実行することもできる。今後、Scala、JavaScript、Goなどもサポートする予定だ。

分析エンジンとは、高度な分析機能を提供するために緊密に統合されたソフトウェアコンポーネントを含む包括的なフレームワークだ。最初のリリースでは、SQLエンジン、機械学習エンジンおよびグラフエンジンの3つが提供される。SparkエンジンやTensorFlowエンジンも追加する予定もある。また将来的にカスタムエンジンを追加できるようにする構想もある。

Teradata Databaseを初めとするRDB、Hadoop、Cassandra、Kafka、Mongo DBやAmazon S3などのあらゆるデータソースにアクセスして、モデルを構築する(将来構想を含む)。データの種類もRDB、JSON、Avro、XML、CSV、HDFS、PDFなど主要な形式を全てサポートしている。もちろん画像、音声、動画もサポートしている。

コンテナ化された分析エンジン

分析エンジンは、機械学習、グラフ分析などの高度な分析機能をコンポーネントとして提供するものだ。可視化ツールや管理ツール等などからも参照可能で、データサイエンティストは分析の流れをとりまとめて、同じ分析を繰り返し実行することができる。

分析エンジンは、データストレージと分離可能なDockerコンテナとして実装されている。コンテナ化により、開発環境と本番環境の違いを吸収できるため、本番移行に際してシステム更新の手間を省くことができる。また新しい分析エンジンもすばやく追加できる。さらにエンジンの自動スケールアウトやエンジン間の自動連携などのオーケストレーションも実現できる。

以下に、最初のリリースでバンドルされている3つの分析エンジンについて、若干の説明を加える。

1. SQLエンジン

SQLエンジンは、従来のTeradataでのアナリティクス(Teradata Warehouse Miner、SAS、行列関数、時系列データ型と集約機能など)と同様、永続的なストレージにあるTeradataデータベースに、SQLを介してアクセスするものだ。しかしそれだけではなく、ポピュラーな機械学習関数(パス分析&パターン分析、アトリビューション分析、スコアリング関数など)をサポートしている。

2. 機械学習エンジン

機械学習エンジンは、人工知能、統計、テキスト分析やセンチメント(感情)分析、データの準備、非構造データの構文解析など幅広い分析ジャンルにまたがる機能で構成されている。機械学習エンジンを活用することにより、結果の自動分類、感情強度の評価、顧客行動の理解、不正検出などが実現されている。

3. グラフエンジン

グラフエンジンはネットワーク図(図)を分析するためのエンジンである。これによって、人と人の関係、商品と商品の関係、前後関係などあらゆるネットワーク的な関係を分析して、相互作用や影響について知ることができる。グラフエンジンを活用することにより、ネットワーク上の脅威の検出、マーケットバスケット(成功率の高いクロスセルのリコメンド)のレンダリング、ソーシャルメディアにおけるインフルエンサーの抽出などが実現されている。

Teradata Vantageの操作イメージ

ここで、Teradata Vantageの実際の操作イメージを2つ示そう。

1つ目はSQL文の自動作成だ。手順は以下の通り。

  1. ログイン

  2. データベースの選択

  3. テーブル一覧からテーブルを選択

  4. カラム一覧からカラムを選択

  5. 実行ボタンをクリック → 自動でクエリーが作成される

  6. 実行結果が表示される

SQLを知らなくても検索結果が得られる、極めて簡単で便利な機能である。

もう1つは、閲覧履歴の可視化だ。

使用しているデータは、視聴者の番組視聴履歴である。またスクリプトは既に作成されている。

手順は以下の通り。

  1. ログイン

  2. スクリプトを選択して、実行ボタンをクリック → 実行履歴が表示される

  3. 結果を見る → 視聴者が番組を見た流れが美しいビジュアルで確認できる(図)

クエリーのログ、権限、設定なども分かりやすいUIで確認することができる。

4Dアナリティクスを含む豊富なデータ型

Teradata Vantageでは主要なデータ種類を全て扱えることは前述したが、これらはTeradata Databaseのデータ型としてサポートされているので、高速かつ簡単に扱うことができる。

特に重要なことは、地理空間データと時系列データのデータ型が存在することだ。これにより、地理空間の3次元情報に時間情報を組み合わせた四次元の分析、すなわち4Dアナリティクスを簡単かつ高速に実行できる。

例えば携帯電話会社であれば、地域、製品タイプおよびその他の変数による最適な配信プランや料金プランを見つけだすことができる。

機械製造企業であれば、故障が特定の場所で偏りをもって発生し、故障発生前の兆候を把握することで部品の劣化を把握して保守作業を実施し、顧客満足度を大きく高めることができる。

医療機関であれば、症状に対して処方情報を調べて、関係が正しいかを確認し、食い違いが生じている場合には、さらに調査を行うことができる。食い違いの発生は、誤った使い方の場合がある。薬剤の誤用を防ぎ、また確実に保険負担分が支払われるようにできる。

このように、4Dアナリティクスは極めて高い価値を企業にもたらすのである。

データと分析を統合することで生まれるメリット

最後にTeradata Vantageの将来構想を1枚の図にまとめた(図)。

データサイエンティストのニーズとして「すぐに分析に取りかかりたい」という項目を挙げた。ところが「ビッグデータ」ということで、データの量も種類も増えていくと、データを集めるという、分析とは直接関係のない作業に時間がかかるようになり、分析のための時間を圧迫するようになる。

Teradata Vantageを導入することで、データへのアクセスが一元化され、様々な分析を一つの環境で行うことができるようになる。そうすることでデータを集める時間が削減され、データサイエンティストにとっては分析に専念できる環境が整うことになる。

データサイエンティストの立場からは、このことこそがTeradata Vantageを利用する最大のメリットだと感じられるだろう。

==========================

著者プロフィール

松本伸哉

テラデータ・コンサルティング本部 シニア・データサイエンティスト

奈良県立医科大学博士研究員

  • 医学博士(奈良県立医科大学)

  • 通信、流通など幅広い業種にわたってデータサイエンス・プロジェクトを実施。

  • 現在、自動車業界を中心に製造業において分析を実施。

【取り組んだ事例】

  • 遺伝子活動量測定結果の数値化アルゴリズムの開発。

  • 自動車業界における製造時不具合の原因特定。

  • 自動車部品の劣化予測。

Jason Somerville

テラデータ・コンサルティング本部

データサイエンティスト

  • 統計学博士(UCLA大学院)

  • 日本テラデータ社にてE-Commerce・金融・製造業など各種業界でデータサイエンス・プロジェクトを実施。

  • ソリューション提供に繋がる分析業務に関わる。

  • 現在、 E-Commerceのデータ分析に従事。 サービスごとの新規顧客獲得に貢献する多数の予測モデルを構築。

【取り組んだ事例】

  • 金融業の店舗統廃合の最適化。

  • 製造業の最新製品の需要予測。