データウェアハウス(DWH)とは?特徴や分析方法、具体例を解説

西 正広

Marketing Strategist / Data Analyst

記事をシェア

データウェアハウス(DWH)とは?特徴や分析方法、具体例を解説

データウェアハウス(DWH)とは、企業に蓄積される膨大なデータを格納するシステムのことです。

データウェアハウスは、データベースの一種であるものの、利用の目的や格納するデータには違いが見られます。本記事では、データウェアハウスの基礎知識から、データウェアハウスを構成する4つの特徴、そして実際の分析の流れについて解説します。

DWH(データウェアハウス)とは?

データウェアハウス(Data Ware house)とは、直訳すると「データの倉庫」「データの保管所」を意味します。

データウェアハウスは、生産管理や販売管理といった「基幹系システム」・MAツールやSFAツール・CRMツールといった「戦略系システム」・WebサイトのアクセスログやIoT機器のセンサーログなど、日々蓄積される大量のデータを格納するためのシステムのことを指します。

データウェアハウスは通常、蓄積された大量のデータを分析することによって、経営やマーケティングにおいての、重要な意思決定をサポートするために用いられます

そのため、

  • データが分析しやすい形態で格納される
  • 分析を行うためのデータ処理が速い

といった特徴を持っています。

データウェアハウスは、しばしば「データベース」「データマート」「BI(ビジネスインテリジェンス)」などと混同されますので、それぞれの違いをわかりやすく解説します。

▼関連記事
データを意思決定の判断軸としたマーケティング手法や経営手法である「データドリブンマーケティング」について知りたい方は、別記事「3分でわかる『データドリブンマーケティング』とは?基本の考え方やよくある課題を解説」で解説していますので、そちらもぜひ参考にしてください。

データベースとの違い

データを格納するためのシステムと言えば、「データベース」を思い浮かべるかもしれません。データウェアハウスも、データベースの1種と捉えることができますが、両者の特徴は大きく異なります。

データベースとは、「一定の形式で整理されたデータのかたまり」のことを指します。基幹系システムや戦略系システムでは、データの記録・閲覧ができることから、それぞれのツールでデータベースを有していると言えます。

しかし、データベースそのものは、データの分析を目的として設計されたものではなく、あくまでもデータの記録・参照に利用されます

一方で、データウェアハウスは、保存形態が定義された上でデータの統合がされている(単一のデータスキーマを持っている)ので、複数システムから集約したデータを高速に処理することが可能です

データマートとの違い

データウェアハウスを語る時に、よく取り上げられるのが「データマート(Data Mart)」です。

データマートも、データを格納するためのシステムの一種ですが、ウェアハウスが「倉庫」を意味するのに対して、マートは「小売」を意味します。そのため、データマートはより小規模で、データウェアハウスのサブセットとして用いられます。

データマートは、データウェアハウスから特定の目的に使用するデータのみを抽出して、格納します。マーケティング・営業・顧客管理など、それぞれの部門に必要な情報だけを分析できるので、現場レベルで扱いやすいという特徴があります。

これは反対に、特定の部門や目的限定したデータ分析しか行うことができず、企業全体の意思決定をサポートするような全社的な分析はできないと捉えることもできます。

BI(ビジネスインテリジェンス)との違い

複数システムのデータソースを一元で管理するのがデータウェアハウスなのに対して、BIツールは、データウェアハウスに蓄積されたデータを分析〜レポーティング(可視化)するためのツールです。

表やグラフで視覚的にわかりやすく把握することができるので、データ分析に関して深い知見がない担当者でも、各部門や経営全体の状況を理解し、経営判断へとつなげることができます。

データを保管する箱が「データウェアハウス」、それを実務レベルで扱えるようにするのが「BIツール」と捉えると良いでしょう

ただし、最近のBIツールの中には、データウェアハウスの機能を備えたサービスも多く、両者の線引きはより難しいものになっています。(※データウェアハウスに簡易的なデータ可視化の機能が付帯していたり、BIツールにデータウェアハウスライクなデータストレージを保有していることもあります。)

データレイクとの違い

データレイクとは、加工されていない「ローデータ」や、画像・動画・音声などの表形式の構造を持たない「非構造化データ」を格納するためのデータベースです。現時点で利用の目的が明確に定まっていないが、将来的に有益なデータを蓄積するために利用されることが多くなっています。

データレイクは、分析に必要な処理が施されていないデータ(非構造化データ)を蓄積するため、分析しやすいように処理されたデータを扱うデータウェアハウスよりも、大規模なストレージを要します。

その反面、無加工なので、データの柔軟性やアクセスが容易で、データの加工を施すことでさまざまな分析を行える特徴を持っています。

DWHを効果的に活用するために押さえておきたい4つの特徴

ここからは、データウェアハウスの具体的な特徴について解説します。

1. 時系列データを扱うことが多い

データウェアハウスで保管されるデータは、時系列のものが多いです。例えば、1件の売上が発生すると、SFAなどの管理システムから情報を抽出し、新たにデータが1件追加されます。

例えば、銀行などにおける入出金データをDHWで取り扱う場合、出金や入金など全てのリクエストを、時系列順に記録します。そのため、半年前・1年前の口座残高など、任意の時点での状態や大まかなデータの流れを把握することが可能です。

2. サブジェクトごとに分類されている

データウェアハウスで保管されるデータは、サブジェクト(主題・テーマ)ごとに分類されています。

例えば、販売管理システムのデータベースには、1件の売上に対して、売上日・店舗・顧客の氏名・顧客ID・顧客住所・連絡先・商品コード・販売個数・定価などのサブジェクト別にデータが保管されています。

これをデータウェアハウスで保管する時には、サブジェクトごとに置き換えます。

例えば、「顧客」というサブジェクトでは、顧客の氏名・顧客ID・顧客住所・顧客の連絡先といった、顧客にまつわる情報が集約されます。このようにデータを一つのまとまりとして管理することで、他のシステムと連携する時に、データが重複することを防ぐことができます。

また、販売システムのデータベースでは、売上が発生した時点での分析しかできません。サブジェクトごとに分解し、複数のツールとデータを統合することによって、商品を購入した顧客がその後どうなったか(顧客管理)といった、システムに依存しない分析を可能にしてくれます。

3. データが統合されている

データウェアハウスは、複数のシステムから収集した異なるフォーマットのデータを、単一のスキームに変換した状態で保管がされます

例えば、「顧客ID」を一つ見ても、システムによっては、メールアドレスになっているケース、文字列になっているケース、整数になっているケースなどが考えられます。このような場合は、同一の顧客ではなく複数の顧客と認識されてしまう可能性があり、適切な分析につなげられません。データウェアハウスであれば、こうした情報のズレが生じず、データの整合性を高めることができます。

この処理には、通常「ETL(Extraction Transformation and Loading)」と呼ばれるツールが用いられます。ETLは、各システムのソースデータを抽出し、同一のスキームへと変換、データウェアハウスへの書き出しを自動で行います。

4. 過去データを長期保管する

最後の特徴として、過去データを長期保管する点があります。データが更新されることもなく、ただ追加されていくので、長期的な分析を可能にします。

DWHの導入は、大量のデータが蓄積されることが前提

ここまで、データウェアハウスの基本的な概念や特徴について解説しました。では、データウェアハウスはどのような企業で最もその効果を発揮するのでしょうか。

次章で詳しく解説しますが、導入が比較的容易で、安価なランニングコストで運用できる「クラウドタイプ」のデータウェアハウスの出現により、多くの企業でデータウェアハウスの導入が急ピッチで進んでいます。

蓄積されるデータをいかに有効に活用できるかが、企業の明運を分けるといっても良い時代において、データウェアハウス並びにBIツールの導入が進むのは自然の流れですが、これらのシステムやツールを導入するには一つだけ条件があると言えます。

それは、そもそも社内で複数のシステム(基幹系システム・戦略系システムなど)を運用し、個別で分析しきれない大量のデータが蓄積されていることです。

当たり前の話ですが、そもそも分析し得るデータがなければ、データウェアハウスは何の役にも立ちません。また、仮にデータが蓄積されていたとしても、人的に管理〜分析できる範囲内であれば、高コスト ・高リソースのデータウェアハウスを導入しても、費用対効果に見合わないでしょう。

また、個別のシステムで分析しきれないという点も重要です。例えば、日々の売上額や利益、販売された商品などを分析したいケースでは、販売管理システムのみで賄うことができます。

データウェアハウスは、複数のシステムに蓄積されるデータを統合し、分析することで、その効果を最大限に発揮します。例えば、販売管理システムと顧客管理システムのデータを分析することで、特定の店舗を利用している顧客が有料顧客になりやすいといった分析を導き出すことができるようになります。

クラウドタイプのDWHに移行が進んでいる

データウェアハウスの導入に関して、自社にあった解決策を得られるように、もう少し詳細を見ていきましょう。

データウェアハウスはサーバーの形態によって、大きく2つに分けることができます。

  • オンプレミスタイプ
  • クラウドタイプ

オンプレミスタイプは、自社でサーバーを設置することで、インターネットを介さずに接続できます。そのため、セキュリティ面が強固で情報漏えいのリスクを抑えることや、カスタマイズ性が高いことがメリットです。

しかし、最近ではクラウドタイプのデータウェアハウスが多く展開され、こちらが主流になりつつあります。クラウドタイプのデータウェアハウスには、以下のようなメリットがあります。

  1. 初期コストやランニングコストが安い
  2. 運用の手間がかからない
  3. 拡張性が高い

クラウドタイプのデータウェアハウスは、ハードウェアの購入・設置や、マシンの設置スペース、電気代などがかからないため、初期コストやランニングコストを大幅に抑えることができます。

また、障害発生時には、各プロパイダがトラブルの処理にあたってくれるため、社内の人員を割く必要がありません。その上、ストレージ容量を追加で購入できるため、初期に想定したデータ量を超えても、過去データを削除するといった必要がありません。

近年では、ディザスタリカバリ(天災や情勢悪化による破壊からの復旧)の側面から、いかなる状況下であっても高い確率でデータを復旧できるよう、グローバルスケールで地理的に分散させてデータの冗長化(バックアップ)が可能な、AWS、GCP、Azureなどのクラウドが選択されるケースも増えています。

DWHを用いたデータ分析の流れ

ここからは、実際にデータウェアハウスを用いて、実際にデータ分析をするまでの流れについて解説します。実際には、より多くの工程が発生しますが、イメージがつきやすいように簡略化して説明します。

STEP1:データウェアハウスの要件定義
STEP2:データウェアハウスの目的の定義
STEP3:データウェアハウスの環境構築
STEP4:データの抽出〜加工
STEP5:データの分析〜レポーティング

STEP1:データウェアハウスの要件定義

データウェアハウスの導入には、社内に散在するデータを収集するため、全社的な取り組みが必要です。技術担当者や分析担当者だけでなく、マーケティング部門・経営部門・そしてセキュリティチームとの連携が欠かせません。

各部署の担当者と、業務の中でどのようにデータが収集されているのか、また安定的にデータを収集することが可能なのかを確認しましょう。

STEP2:データウェアハウスの目的の定義

続いて、データウェアハウスを導入することによって、何を分析し、どのように事業課題を解決へと導くのかを定義しましょう。

そもそもデータウェアハウスは、何らかの目的を持って導入をするものです。目的は企業によって、様々です。

  • 売上の向上
  • 顧客体験の最適化
  • 従業員のパフォーマンス向上など

何を目的にするかによって、収集すべきデータや導入すべきデータウェアハウスは異なってきます。

STEP3:データウェアハウスの環境構築

実際に、データウェアハウスの環境を構築していきます。クラウドタイプ・オンプレミスタイプのどちらを導入するのか、データストレージの拡張性などを考慮して、ツールの選定を行います。

STEP4:データの抽出〜加工

各システムのデータベースから、必要なデータを抽出します。ここでは、ETLシステムを利用します。ETLは、データベースからのデータ抽出・変換・データウェアハウスへの転送を自動で行ってくれるため、大幅な工数の削減が期待できます。

ETLで自動化できるとは言っても、データウェアハウスの設計において、データの抽出〜加工は最も時間を要するプロセスです。オンラインで抽出するのか、オフラインで抽出するのか、またソースデータ全体を抽出するのか、部分的に抽出するのかで、かかる工数や処理の負荷が変わってきます。

STEP5:データの分析〜レポーティング

BIツールどデータウェアハウスを連携することで、データの分析〜レポーティングを開始します。

DWHを事業に活かした企業事例(ECサイトの顧客体験向上)

最後に、データウェアハウスの具体的な活用事例について解説します。

出典:eBay公式サイトより

eBayは、米・カルフォルニア州に本社を置く、世界190ヵ国以上に商品を出品できるオンラインマーケットプレイス(越境ECサイト)です。日本での知名度は高くないものの、世界中に1億6000万人ほどのユーザーを抱える巨大ECサイトです。

データウェアハウスを含む分析システムに100PB(ペタバイト)を超えるデータを蓄積、日々訪れるユーザーが、当ECサイトでどのくらい時間を費やし、どの順番で商品を閲覧していたのかなど、顧客分析に活用しています。

また、データウェアハウスに蓄積される「顧客の購入履歴」を分析し、商品の画像と顧客の購入には強い相関関係があることを発見。質の低い画像を掲載している出品者に、改善を求めることで、販売促進へとつなげています。

まとめ|DWHの導入で、データに基づく経営判断を迅速に

データウェアハウスに、各データベースのデータを集約し、BIツールを用いて分析を行うことで、今まで発見することのできなかった新たなビジネス知見を得られ、顧客体験の向上や業務の効率化に大きく役立てることができます。

しかし、データウェアハウスの設計には大変な労力やコストを費やします。データウェアハウスの導入の結果、どんな事業課題を解決したいのかというゴールを明確に定め、費用対効果を見極めた上で導入することが大切です。

また、データウェアハウスそのもの自体が大変、理解しにくいものです。導入を検討している企業の担当者は、まずはデータウェアハウスや、その周辺のデータベースとの違いをしっかりと理解し、関係者との調整をはかりつつ導入を進めていきましょう。

この記事を書いたメンバー

MASAHIRO NISHI

西 正広

Marketing Strategist / Data Analyst

1983年生まれ。大手不動産賃貸事業会社におけるWebディレクション・デジタルマーケティング業務後、インターネット専業広告代理店・株式会社電通デジタルにてアクセス解析・DMP・レコメンデーション・BIツールなどの導入・活用支援に取り組む。 2019年7月よりMOLTSに参画し、2020年より子会社KASCADEを設立し、取締役に就任。データに基づくサービス改善、ビッグデータ活用のコンサルティング、インハウス運用、データドリブンなマーケティング組織の構築を支援する。

  1. MOLTS
  2. データ戦略
  3. ナレッジ
  4. データウェアハウス(DWH)とは?特徴や分析方法、具体例を解説