検索

データウェアハウス vs データマート


データウェアハウスがなくても明細データは持てるのでは?

その通りです。データウェアハウスの価値の源泉の「ひとつ」は明細データを持つことにある、と今まで書いてきましたが、明細データを持つこと自体は、直接データウェアハウスを持つ理由にはなりません。(データウェアハウスの定義についてはコラムの第2回目に書いてみました)

しかし、なぜデータウェアハウスを語る文脈で、わざわざ明細データのことを強調するのかといいますと、データを保有するコストを考えると、明細データはデータウェアハウスに統合して保有するのがいいからです。

データを保有するコストというのは主に、(1)データを格納する器(ハードウェア)のコスト、(2)データをロードしてデータベースを維持・運用するためのコスト、の 2つがあります。

磁気ディスク装置の価格が安くなったといっても、 3年分、5年分の明細データというのは決して小さなデータ容量ではありません。このようなデータを「顧客分析システム用」「商品管理分析システム用」「需要予測システム用」「在庫管理支援システム用」…というように目的別、システム別に、部分的であっても重複保有したら、企業全体としてのデータベース構築コスト、運用コストの面で大きなムダにならないか?という考えです。

データベースというものは、複数存在するだけで、運用管理コストとリスクが大きくなります。それぞれにデータを配信(ロード)する仕組みが必要ですし、複数のデータベースの内容の同期に配慮する必要も生じます。データベースソフトによっては、データ量が増えるとパフォーマンスを維持するためにチューニング作業が必要になることもあります。データベースが社内に複数存在しているために、システム運用部門がその運用・管理に多くの人件費を割いている例は珍しくありません。

データマートはデータウェアハウスの敵?

データウェアハウスと違って、目的別に構築されたデータベースのことを「データマート」と呼んでいます。

データウェアハウスは、企業内のデータをひとつに統合して一元管理しようとするものですが、複数あるデータマートは、往々にして互いに一部のデータを重複保有してしまいます。データウェアハウスとは設計理念が異なるものです。

全データが統合され、優れた処理性能を持った理想的なデータウェアハウスが企業に一つあれば、本来データマートは必要なかったでしょう。でも現実には、データマートが多数存在しています。

それには理由があります。そしてデータマートにも 2つのタイプがあります。

■独立型データマート(図の左側の形態)

データウェアハウスがなくて、データマートだけがある形態です。数十ものデータマートが存在することもよくあります。そうなるとデータソースとなる業務システム群とデータマート群、そしてユーザーとの間にはタスキ掛けのように相互にデータのやりとりが発生し、また重複して保有されるデータも多くなります。

データウェアハウスが技術的に現実的でなかった古い時代は、必然的にこのようなデータマートが作られていきました。しかし現在でも、特定の目的に応じたデータだけ集めれば設計できてしまうデータマートの手軽さは IT部門に好まれ、そのような企業では、データマートは今も増殖し続けています。

■従属型データマート(図の中央の形態)

一応データウェアハウスがあるのに、データマートが併存していることもよくあります。

この場合のデータウェアハウスの役割は、もっぱらデータのロード処理とデータ統合処理、および時系列データを蓄積する機能を担います。ユーザーは直接データウェアハウスにはアクセスできません。ユーザーは、データウェアハウスから切り出されたデータを格納した目的別データマートを参照する方式をとります。

21世紀になって間もない頃までは、多数のユーザーからの同時アクセスに耐える性能を持ったデータウェアハウスの構築が難しかったこと、既存のデータマートを参照するように作られている業務アプリケーションを、データウェアハウス向けに改訂するのは困難だったという理由で、このような折衷形態が構築されました。

ただし現在も、各種業務システムを提供する ITベンダーは、データウェアハウスに依存したソフトウェアはあまり商品化したくないようです。データウェアハウスがなくても、自前の専用データマートで自己完結するシステムでないと、売りにくいのでしょう。そういう事情もあり、データマート群が全面的にデータウェアハウスに取って代わられることは、まだしばらくなさそうです。

従属型データマートは、データロードの複雑さやデータ品質、データ同期の問題はいくらか解消されますが、データベースの数は多いままなので、データベースソフトウェアのライセンス費用や運用人件費などが高くつくことになります。

■データウェアハウスだけ。データマートなし。(図の右側の形態)

現在の技術では、データマートを廃止してひとつのデータウェアハウスに全データを統合し、多数のユーザーを同時にサポートすることができます。これは運用の容易さ、システム変更のしやすさ、トータルの維持コストの安さなど、メリットの多い形態です。しかしデータマートの全廃が簡単でないことが、この形態を実現する上でのネックになります。

では実際に多くのデータマートを廃し、データをひとつのデータウェアハウスに統合して成功した企業の、マネジメント層のコメントを紹介しましょう。

バンクオブアメリカ(Bank of America:米国の銀行)

「単一のデータウェアハウスへの移行により、Bank of America は、運用コストを 1年当り 1,100万ドルから 400万ドルに削減する事が出来た」

「今までは、同じ質問を 4つの部署に投げかけると、それぞれ違う結果を記したレポートが上がってきた。なぜ? それぞれの部署が独自の異なるデータを蓄積し、使用していたからだ」

デルタ航空(米国のエアライン)

「収益分析を行うとき、今までは運行統計システム、航空券売上業務、経費関連システム群の多数のデータマートからデータを集めて分析する必要があった。たとえば経費関連のデータだけで 8つの異なるシステムに散らばっていた。このため前月のフライトごとの収益性の分析には数週間かかっていた。多数のビジネスアナリストがデータを集め、クレンジングをした後、やっと分析にかかる」

「今では 27 のデータマートをひとつのデータウェアハウスに統合。その結果、デルタ航空ではフライトごとの収益分析が、その日のうちに完了している」

このように海外では、多数のデータマートをひとつのデータウェアハウスに統合した成功事例が少なからず報告されていて、データウェアハウスに企業内データを統合するメリットが証明されています。

世の中にはまだまだデータマートがたくさん存在していますから、今後さらにデータウェアハウス化が進む余地は大きいと考えています。

日本でも昨年あたりから再び、セントラル・データウェアハウスとかエンタープライズ・データウェアハウス、あるいは統合データベースと称して、データマートを廃する方向で次期情報システムの調査や検討をしている企業が増えている気がします。

データウェアハウス構築は IT部門の主導が不可欠

データマートとは違い、データウェアハウスは特定の業務用に供されるシステムではありません。全社のインフラです。1つのユーザー部門のニーズに応じる形ではなく、自社の ITシステムの全体最適を企図して導入するものですから、IT部門のリーダーシップで推進する必要があります。

多くの企業では今まで、ユーザーが望むシステムを「早く」「安く」構築するためにデータマートを導入し続けました。その結果、データマート群がシステム運用の総コストを押し上げる要因になっていたのです。

その一方で、ユーザー側の要求も、今までのデータマート単位では収まらない領域に発展してきました。このコラムで触れてきたような「業務横断的」かつ「長期時系列分析」かつ「明細データ利用」という欲求です。

資金に余裕があって、多数のデータマートを保有し続けることが問題にならない企業でも、今後はビジネスユーザーのニーズに応えるために、データウェアハウスのような機能を提供できるデータベースが求められるようになるでしょう。


eventbanner.png