データウェアハウス(DWH)の特徴と分析の流れを分かりやすく解説

西 正広

Marketing Strategist / Data Analyst

記事をシェア

データウェアハウス(DWH)の特徴と分析の流れを分かりやすく解説

データウェアハウス(以下、DWH)とは、企業に蓄積される膨大なデータを格納するシステムのことです。

DWHは、データベースの一種であるものの、利用の目的や格納するデータには違いが見られます。本記事では、基礎知識からDWHを構成する4つの特徴、そして実際の分析の流れについて解説します。

Result Driven.

DWHとは?

DWH(Data Ware house)とは、直訳すると「データの倉庫」「データの保管所」を意味します。

生産管理や販売管理といった「基幹系システム」、MAツールやSFAツール・CRMツールといった「戦略系システム」、WebサイトのアクセスログやIoT機器のセンサーログなど、日々蓄積される大量のデータを格納するためのシステムのことを指します。

DWHは通常、蓄積された大量のデータを分析することによって、経営やマーケティングにおいての、重要な意思決定をサポートするために用いられます

そのため、

  • データが分析しやすい形態で格納される
  • 分析を行うためのデータ処理が速い

といった特徴を持っています。

DWHは、しばしば「データベース」「データマート」「BI(ビジネスインテリジェンス)」などと混同されますので、それぞれの違いをわかりやすく解説します。

▼関連記事
データを意思決定の判断軸としたマーケティング手法や経営手法である「データドリブンマーケティング」について知りたい方は、別記事「3分でわかる『データドリブンマーケティング』とは?基本の考え方やよくある課題を解説」で解説していますので、そちらもぜひ参考にしてください。

データベースとの違い

データを格納するためのシステムと言えば、「データベース」を思い浮かべるかもしれません。DWHも、データベースの1種と捉えることができますが、両者の特徴は大きく異なります。

データベースとは、「一定の形式で整理されたデータのかたまり」のことを指します。基幹系システムや戦略系システムでは、データの記録・閲覧ができることから、それぞれのツールでデータベースを有していると言えます。

しかし、データベースそのものは、データの分析を目的として設計されたものではなく、あくまでもデータの記録・参照に利用されます

一方で、DWHは、保存形態が定義された上でデータの統合がされている(単一のデータスキーマを持っている)ので、複数システムから集約したデータを高速に処理することが可能です

データマートとの違い

DWHを語る時に、よく取り上げられるのが「データマート(Data Mart)」です。

データマートも、データを格納するためのシステムの一種ですが、ウェアハウスが「倉庫」を意味するのに対して、マートは「小売」を意味します。そのため、データマートはより小規模で、DWHのサブセットとして用いられます。

データマートは、DWHから特定の目的に使用するデータのみを抽出して、格納します。マーケティング・営業・顧客管理など、それぞれの部門に必要な情報だけを分析できるので、現場レベルで扱いやすいという特徴があります。

これは反対に、特定の部門や目的限定したデータ分析しか行うことができず、企業全体の意思決定をサポートするような全社的な分析はできないと捉えることもできます。

BI(ビジネスインテリジェンス)との違い

複数システムのデータソースを一元で管理するのがDWHなのに対して、BIツールは、DWHに蓄積されたデータを分析〜レポーティング(可視化)するためのツールです。

表やグラフで視覚的にわかりやすく把握することができるので、データ分析に関して深い知見がない担当者でも、各部門や経営全体の状況を理解し、経営判断へとつなげることができます。

データを保管する箱が「DWH」、それを実務レベルで扱えるようにするのが「BIツール」と捉えると良いでしょう

ただし、最近のBIツールの中には、DWHの機能を備えたサービスも多く、両者の線引きはより難しいものになっています。(※DWHに簡易的なデータ可視化の機能が付帯していたり、BIツールにDWHライクなデータストレージを保有していることもあります。)

データレイクとの違い

データレイクとは、加工されていない「ローデータ」や、画像・動画・音声などの表形式の構造を持たない「非構造化データ」を格納するためのデータベースです。現時点で利用の目的が明確に定まっていないが、将来的に有益なデータを蓄積するために利用されることが多くなっています。

データレイクは、分析に必要な処理が施されていないデータ(非構造化データ)を蓄積するため、分析しやすいように処理されたデータを扱うDWHよりも、大規模なストレージを要します。

その反面、無加工なので、データの柔軟性やアクセスが容易で、データの加工を施すことでさまざまな分析を行える特徴を持っています。

DWHが注目される背景

ここからは、DWHが企業に注目されている背景について、DWHの必要性も含めて解説していきます。

複数のシステムのデータを組み合わせる必要があった

以前から、日本はもちろんアメリカの企業でも、すでにコンピュータによるシステム化が進んでいました。小さいものはパソコンで、大型になるとオフィスコンピュータやメインフレームで、さまざまな業務をシステム化していきました。

例えば「会計」「販売」「顧客」「生産」「在庫」「購買」という具合です。ところが、これらのシステム化された業務は単独で構築されているため、複数のシステムのデータを組み合わせて分析することができませんでした。そこで、データの統合的な分析を可能にする、分析特化型のデータベース「DWH」の必要性が出てきたのです。

DWHを効果的に活用するために押さえておきたい4つの特徴

ここからは、DWHの具体的な特徴について解説します。

1. 時系列データを扱うことが多い

DWHで保管されるデータは、時系列のものが多いです。例えば、1件の売上が発生すると、SFAなどの管理システムから情報を抽出し、新たにデータが1件追加されます。

例えば、銀行などにおける入出金データをDWHで取り扱う場合、出金や入金など全てのリクエストを、時系列順に記録します。そのため、半年前・1年前の口座残高など、任意の時点での状態や大まかなデータの流れを把握することが可能です。

2. サブジェクトごとに分類されている

DWHで保管されるデータは、サブジェクト(主題・テーマ)ごとに分類されています。

例えば、販売管理システムのデータベースには、1件の売上に対して、売上日・店舗・顧客の氏名・顧客ID・顧客住所・連絡先・商品コード・販売個数・定価などのサブジェクト別にデータが保管されています。

これをDWHで保管する時には、サブジェクトごとに置き換えます。

例えば、「顧客」というサブジェクトでは、顧客の氏名・顧客ID・顧客住所・顧客の連絡先といった、顧客にまつわる情報が集約されます。このようにデータを一つのまとまりとして管理することで、他のシステムと連携する時に、データが重複することを防ぐことができます。

また、販売システムのデータベースでは、売上が発生した時点での分析しかできません。サブジェクトごとに分解し、複数のツールとデータを統合することによって、商品を購入した顧客がその後どうなったか(顧客管理)といった、システムに依存しない分析を可能にしてくれます。

3. データが統合されている

DWHは、複数のシステムから収集した異なるフォーマットのデータを、単一のスキームに変換した状態で保管がされます

例えば、「顧客ID」を一つ見ても、システムによっては、メールアドレスになっているケース、文字列になっているケース、整数になっているケースなどが考えられます。このような場合は、同一の顧客ではなく複数の顧客と認識されてしまう可能性があり、適切な分析につなげられません。DWHであれば、こうした情報のズレが生じず、データの整合性を高めることができます。

この処理には、通常「ETL(Extraction Transformation and Loading)」と呼ばれるツールが用いられます。ETLは、各システムのソースデータを抽出し、同一のスキームへと変換、DWHへの書き出しを自動で行います。

4. 過去データを長期保管する

最後の特徴として、過去データを長期保管する点があります。データが更新されることもなく、ただ追加されていくので、長期的な分析を可能にします。

DWHの導入は、大量のデータが蓄積されることが前提

ここまで、DWHの基本的な概念や特徴について解説しました。では、DWHはどのような企業で最もその効果を発揮するのでしょうか。

次章で詳しく解説しますが、導入が比較的容易で、安価なランニングコストで運用できる「クラウドタイプ」のDWHの出現により、多くの企業でDWHの導入が急ピッチで進んでいます。

蓄積されるデータをいかに有効に活用できるかが、企業の明運を分けるといっても良い時代において、DWH並びにBIツールの導入が進むのは自然の流れですが、これらのシステムやツールを導入するには一つだけ条件があると言えます。

それは、そもそも社内で複数のシステム(基幹系システム・戦略系システムなど)を運用し、個別で分析しきれない大量のデータが蓄積されていることです。

当たり前の話ですが、そもそも分析し得るデータがなければ、DWHは何の役にも立ちません。また、仮にデータが蓄積されていたとしても、人的に管理〜分析できる範囲内であれば、高コスト ・高リソースのDWHを導入しても、費用対効果に見合わないでしょう。

また、個別のシステムで分析しきれないという点も重要です。例えば、日々の売上額や利益、販売された商品などを分析したいケースでは、販売管理システムのみで賄うことができます。

DWHは、複数のシステムに蓄積されるデータを統合し、分析することで、その効果を最大限に発揮します。例えば、販売管理システムと顧客管理システムのデータを分析することで、特定の店舗を利用している顧客が有料顧客になりやすいといった分析を導き出すことができるようになります。

DWH選定のポイント

膨大なデータを時系列に沿って蓄積するDWHは、策定したKPIの下、リアルタイムに変動するデータを分析することで、生産性の向上に役立てることが可能です。

わかりやすい活用例は、POSシステムのデータ分析があります。店舗で取り扱う商品数は数百から数千点以上となり、毎日レジで入力される販売実績データは膨大なものとなります。しかし、そのデータを時系列に沿って分析処理することにより、目的別に活用していくことができるようになります。例えば、バイヤーは売れ筋商品の仕入れに、店長は顧客動向や価格・コスト設定の分析に、商品企画部では新商品の開発データとして、有効に活用していくことができるようになります。

基本、DWHに業種による向き不向きはありません。製造業では在庫の削減、物流業ではコスト効率の追求に活用するなど、データを有効活用した戦略的なマネジメントを強力に支援します。 ただ、DWH導入にあたっては、自社の業務に最適なシステムを構築することが求められます。以下の2つの視点からDWHの構築をご検討ください。

1. DWHの提供形態から選択する

オンプレミスタイプとは、自社でサーバーを設置することで、インターネットを介さずに接続できます。そのため、セキュリティ面が強固で情報漏えいのリスクを抑えることや、カスタマイズ性が高いことがメリットです。ただし、データ分析のパフォーマンス最適化のための調整も社内で行うことになります。

DWHはクラウドサービスでも提供されています。初期導入コストをかけることなく、データ容量の増加にも柔軟に対応できるのが特長です。「スモールスタート」し、常に適正な容量とパフォーマンスを維持しながらデータ分析を行うことができます。ただし、自社業務への最適化という面ではアプライアンスにおよびません。ゆずれない要件がいくつもある、という場合は注意が必要です。

2. DWHの機能性から検討する

自社のデータを戦略的に使いこなすために検討したい代表的な機能をご紹介します。

■処理速度

そもそも既存のデータベースの処理速度では追いつかない膨大なデータを分析するためにDWHが提唱されました。データ処理速度は、システムを検討する際の優先条件となります。

■拡張性

DWHに蓄積されるデータは、日々増え続けていきます。ストレージ容量の拡張性と処理速度が維持されるかどうかも、重要なチェック事項となります。

■ユーザインターフェースの柔軟性

上記のPOSシステムの例を見るまでもなく、社内の誰もが使えるDWHでなければ、データを有効に活用することにはなりません。グラフィカルでわかりやすいユーザインターフェースが保たれるか、操作は簡単に行えるかを確認する必要があります。

■データの連携性

DWHは、データソースからデータを抽出し、BIツールとの連携で分析を行う中継的なシステムです。他のシステムと柔軟にデータを連携する機能は必須です、データ移行やフォーマット変換がスムーズに行えるかどうかを必ず確認してください。

クラウドタイプのDWHに移行が進んでいる

DWHの導入に関して、自社にあった解決策を得られるように、もう少し詳細を見ていきましょう。

DWHはサーバーの形態によって、大きく2つに分けることができます。

  • オンプレミスタイプ
  • クラウドタイプ

前章で補足の通り、オンプレミスタイプは、自社でサーバーを設置することで、インターネットを介さずに接続できます。そのため、セキュリティ面が強固で情報漏えいのリスクを抑えることや、カスタマイズ性が高いことがメリットです。

しかし、最近ではクラウドタイプのDWHが多く展開され、こちらが主流になりつつあります。クラウドタイプのDWHには、以下のようなメリットがあります。

  1. 初期コストやランニングコストが安い
  2. 運用の手間がかからない
  3. 拡張性が高い

クラウドタイプのDWHは、ハードウェアの購入・設置や、マシンの設置スペース、電気代などがかからないため、初期コストやランニングコストを大幅に抑えることができます。

また、障害発生時には、各プロパイダがトラブルの処理にあたってくれるため、社内の人員を割く必要がありません。その上、ストレージ容量を追加で購入できるため、初期に想定したデータ量を超えても、過去データを削除するといった必要がありません。

近年では、ディザスタリカバリ(天災や情勢悪化による破壊からの復旧)の側面から、いかなる状況下であっても高い確率でデータを復旧できるよう、グローバルスケールで地理的に分散させてデータの冗長化(バックアップ)が可能な、AWS、GCP、Azureなどのクラウドが選択されるケースも増えています。

DWHを用いたデータ分析の流れ

ここからは、実際にDWHを用いて、実際にデータ分析をするまでの流れについて解説します。実際には、より多くの工程が発生しますが、イメージがつきやすいように簡略化して説明します。

STEP1:DWHの要件定義
STEP2:DWHの目的の定義
STEP3:DWHの環境構築
STEP4:データの抽出〜加工
STEP5:データの分析〜レポーティング

STEP1:DWHの要件定義

DWHの導入には、社内に散在するデータを収集するため、全社的な取り組みが必要です。技術担当者や分析担当者だけでなく、マーケティング部門・経営部門・そしてセキュリティチームとの連携が欠かせません。

各部署の担当者と、業務の中でどのようにデータが収集されているのか、また安定的にデータを収集することが可能なのかを確認しましょう。

STEP2:DWHの目的の定義

続いて、DWHを導入することによって、何を分析し、どのように事業課題を解決へと導くのかを定義しましょう。

そもそもDWHは、何らかの目的を持って導入をするものです。目的は企業によって、様々です。

  • 売上の向上
  • 顧客体験の最適化
  • 従業員のパフォーマンス向上など

何を目的にするかによって、収集すべきデータや導入すべきDWHは異なってきます。

STEP3:DWHの環境構築

実際に、DWHの環境を構築していきます。クラウドタイプ・オンプレミスタイプのどちらを導入するのか、データストレージの拡張性などを考慮して、ツールの選定を行います。

STEP4:データの抽出〜加工

各システムのデータベースから、必要なデータを抽出します。ここでは、ETLシステムを利用します。ETLは、データベースからのデータ抽出・変換・DWHへの転送を自動で行ってくれるため、大幅な工数の削減が期待できます。

ETLで自動化できるとは言っても、DWHの設計において、データの抽出〜加工は最も時間を要するプロセスです。オンラインで抽出するのか、オフラインで抽出するのか、またソースデータ全体を抽出するのか、部分的に抽出するのかで、かかる工数や処理の負荷が変わってきます。

STEP5:データの分析〜レポーティング

BIツールどDWHを連携することで、データの分析〜レポーティングを開始します。

DWHを事業に活かした企業事例(ECサイトの顧客体験向上)

最後に、DWHの具体的な活用事例について解説します。

出典:eBay公式サイトより

eBayは、米・カルフォルニア州に本社を置く、世界190ヵ国以上に商品を出品できるオンラインマーケットプレイス(越境ECサイト)です。日本での知名度は高くないものの、世界中に1億6000万人ほどのユーザーを抱える巨大ECサイトです。

DWHを含む分析システムに100PB(ペタバイト)を超えるデータを蓄積、日々訪れるユーザーが、当ECサイトでどのくらい時間を費やし、どの順番で商品を閲覧していたのかなど、顧客分析に活用しています。

また、DWHに蓄積される「顧客の購入履歴」を分析し、商品の画像と顧客の購入には強い相関関係があることを発見。質の低い画像を掲載している出品者に、改善を求めることで、販売促進へとつなげています。

まとめ|DWHの導入で、データに基づく経営判断を迅速に

DWHに、各データベースのデータを集約し、BIツールを用いて分析を行うことで、今まで発見することのできなかった新たなビジネス知見を得られ、顧客体験の向上や業務の効率化に大きく役立てることができます。

しかし、DWHの設計には大変な労力やコストを費やします。DWHの導入の結果、どんな事業課題を解決したいのかというゴールを明確に定め、費用対効果を見極めた上で導入することが大切です。

また、DWHそのもの自体が大変、理解しにくいものです。導入を検討している企業の担当者は、まずはDWHや、その周辺のデータベースとの違いをしっかりと理解し、関係者との調整をはかりつつ導入を進めていきましょう。

データ戦略にお困りの方へ

  • データ戦略がない、データ戦略の立て方がわからない
  • 社内で収集しているデータが一元管理されていない
  • 顧客理解を目的としたデータの分析方法がわからない

などのお悩みは私たちMOLTSにご相談ください。創業から6年で累計350社以上の支援を行い、MOLTSが関わったことで求めていた事業・マーケティングの成果が約9割以上が向上、と高い満足度を得ています。ご相談内容の大小に関わらず、プロジェクトと予算に応じて貴社にとって最適なご提案をさせていただいております。まずは会社資料をご覧ください。

資料をダウンロード

この記事を書いたメンバー

MASAHIRO NISHI

西 正広

Marketing Strategist / Data Analyst

1983年生まれ。大手不動産賃貸事業会社におけるWebディレクション・デジタルマーケティング業務後、インターネット専業広告代理店・株式会社電通デジタルにてアクセス解析・DMP・レコメンデーション・BIツールなどの導入・活用支援に取り組む。 2019年7月よりMOLTSに参画し、2020年より子会社KASCADEを設立し、取締役に就任。データに基づくサービス改善、ビッグデータ活用のコンサルティング、インハウス運用、データドリブンなマーケティング組織の構築を支援する。

  1. MOLTS
  2. データ戦略
  3. ナレッジ
  4. データウェアハウス(DWH)の特徴と分析の流れを分かりやすく解説