【図解】データウェアハウス(DWH)とは?基本や使い方を解説
この記事でわかること
- そもそもデータウェアハウス(DWH)とは?何を目的にどう活用するのか
- DWHと周辺ツール(データレイクやデータマート、BI)の違い
- 代表的なデータウェアハウスの製品と、5つの選定ポイント
- DWHを活用したデータ分析の5ステップ
データウェアハウス(以下、DWH)とは、企業内のシステムやアプリ、クラウドサービスなどから定期的にデータを取得し、時系列に蓄積していくデータサーバーです。意思決定者やデータアナリストがアクセスして、業務横断的にデータ活用できる環境を構築します。
昨今は経営・財務だけでなく、営業、販売、人事、マーケティングなど、あらゆる部門・領域でデータに基づく迅速な意思決定が求められています。データ基盤の構築のため、企業規模や業種によらず注目を集めるDWHですが、類似ツールや聞き慣れない用語が多く、導入検討が停滞しているケースも少なからずあるようです。
そこで本記事では、企業におけるデータ管理ソリューションの一種であるDWHについて、その定義や技術的な特徴をはじめ、実際にDWHを活用したデータ分析の流れ、代表的な製品と選定のポイントなど、導入検討の手助けとなるDWHの基本知識を解説していきます。
代表的なデータウェアハウスの製品を知りたい方は、まずは「DWH(データウェアハウス)主要5製品のご紹介」からお読みください。各製品について特徴や機能性、料金プランをまとめています。
DWHの導入について、プロに無料相談してみませんか?
- データウェアハウスが本当に必要なのかが分からない
- 現在描いているデータ基盤の構築が実現可能かどうかが分からない
- どんなツールをどのように導入し、どう使えば良いのか分からない
BigQueryをはじめとするデータ基盤構築のプロフェッショナルが、ヒアリングをもとに「そもそもDWHが必要か」「DWHをどう活用すべきか」「どんなツールをどう構築すべきか」などをアドバイスいたします。
ご依頼は必須ではないので、まずはお気軽にご相談ください。
DWHとは?
DWH(Data Warehouse)とは、直訳すると「データの倉庫」「データの保管所」を意味します。
生産管理や販売管理といった「基幹系システム」、MAツールやSFAツール・CRMツールといった「戦略系システム」、WebサイトのアクセスログやIoT機器のセンサーログなど、日々蓄積される大量のデータを格納するためのシステムのことを指します。
DWHは通常、蓄積された大量のデータを分析することによって、経営やマーケティングにおいての、重要な意思決定をサポートするために用いられます。
そのため、
- データが分析しやすい形態で格納される
- 分析を行うためのデータ処理が速い
といった特徴を持っています。
DWHは、しばしば「データベース」「データマート」「BI(ビジネスインテリジェンス)」などと混同されますので、それぞれの違いをわかりやすく解説します。
データを意思決定の判断軸としたマーケティング手法や経営手法である「データドリブンマーケティング」について知りたい方は、こちらの記事もぜひ参考にしてください。
データベースとの違い
データを格納するためのシステムと言えば、「データベース」を思い浮かべるかもしれません。DWHも、データベースの1種と捉えることができますが、両者の特徴は大きく異なります。
データベースとは、「一定の形式で整理されたデータのかたまり」のことを指します。基幹系システムや戦略系システムでは、データの記録・閲覧ができることから、それぞれのツールでデータベースを有していると言えます。
しかし、データベースそのものは、データの分析を目的として設計されたものではなく、あくまでもデータの記録・参照に利用されます。
一方で、DWHは、保存形態が定義された上でデータの統合がされている(単一のデータスキーマを持っている)ので、複数システムから集約したデータを高速に処理することが可能です。
データマートとの違い
DWHを語る時に、よく取り上げられるのが「データマート(Data Mart)」です。
データマートも、データを格納するためのシステムの一種ですが、ウェアハウスが「倉庫」を意味するのに対して、マートは「小売」を意味します。そのため、データマートはより小規模で、DWHのサブセットとして用いられます。
データマートは、DWHから特定の目的に使用するデータのみを抽出して、格納します。マーケティング・営業・顧客管理など、それぞれの部門に必要な情報だけを分析できるので、現場レベルで扱いやすいという特徴があります。
これは反対に、特定の部門や目的限定したデータ分析しか行うことができず、企業全体の意思決定をサポートするような全社的な分析はできないと捉えることもできます。
BI(ビジネスインテリジェンス)との違い
複数システムのデータソースを一元で管理するのがDWHなのに対して、BIツールは、DWHに蓄積されたデータを分析〜レポーティング(可視化)するためのツールです。
表やグラフで視覚的にわかりやすく把握することができるので、データ分析に関して深い知見がない担当者でも、各部門や経営全体の状況を理解し、経営判断へとつなげることができます。
データを保管する箱が「DWH」、それを実務レベルで扱えるようにするのが「BIツール」と捉えると良いでしょう。
ただし、最近のBIツールの中には、DWHの機能を備えたサービスも多く、両者の線引きはより難しいものになっています。(※DWHに簡易的なデータ可視化の機能が付帯していたり、BIツールにDWHライクなデータストレージを保有していることもあります。)
データレイクとの違い
データレイクとは、加工されていない「ローデータ」や、画像・動画・音声などの表形式の構造を持たない「非構造化データ」を格納するためのデータベースです。現時点で利用の目的が明確に定まっていないが、将来的に有益なデータを蓄積するために利用されることが多くなっています。
データレイクは、分析に必要な処理が施されていないデータ(非構造化データ)を蓄積するため、分析しやすいように処理されたデータを扱うDWHよりも、大規模なストレージを要します。
その反面、無加工なので、データの柔軟性やアクセスが容易で、データの加工を施すことでさまざまな分析を行える特徴を持っています。
DWHが注目される背景
ここからは、DWHが企業に注目されている背景について、DWHの必要性も含めて解説していきます。
複数のシステムのデータを組み合わせる必要があった
以前から、日本はもちろんアメリカの企業でも、すでにコンピュータによるシステム化が進んでいました。小さいものはパソコンで、大型になるとオフィスコンピュータやメインフレームで、さまざまな業務をシステム化していきました。
例えば「会計」「販売」「顧客」「生産」「在庫」「購買」という具合です。ところが、これらのシステム化された業務は単独で構築されているため、複数のシステムのデータを組み合わせて分析することができませんでした。そこで、データの統合的な分析を可能にする、分析特化型のデータベース「DWH」の必要性が出てきたのです。
現在の主流はクラウドタイプ。オンプレミスとの違いは?
DWHはサーバーの形態によって、大きく「オンプレミス型」と「クラウド型」の2つに分けることができます。
オンプレミスタイプは、自社でサーバーを設置することで、インターネットを介さずに接続できます。そのため、セキュリティ面が強固で情報漏えいのリスクを抑えることや、カスタマイズ性が高いことがメリットです。
しかし、最近ではクラウドタイプのDWHが多く展開され、こちらが主流になりつつあります。クラウドタイプのDWHには、以下のようなメリットがあります。
- 初期コストやランニングコストが安い
- 運用の手間がかからない
- 拡張性が高い
クラウドタイプのDWHは、ハードウェアの購入・設置や、マシンの設置スペース、電気代などがかからないため、初期コストやランニングコストを大幅に抑えることができます。
また、障害発生時には、各プロパイダがトラブルの処理にあたってくれるため、社内の人員を割く必要がありません。その上、ストレージ容量を追加で購入できるため、初期に想定したデータ量を超えても、過去データを削除するといった必要がありません。
近年では、ディザスタリカバリ(天災や情勢悪化による破壊からの復旧)の側面から、いかなる状況下であっても高い確率でデータを復旧できるよう、グローバルスケールで地理的に分散させてデータの冗長化(バックアップ)が可能な、AWS、GCP、Azureなどのクラウドが選択されるケースも増えています。
DWHの導入について、プロに無料相談してみませんか?
- データウェアハウスが本当に必要なのかが分からない
- 現在描いているデータ基盤の構築が実現可能かどうかが分からない
- どんなツールをどのように導入し、どう使えば良いのか分からない
BigQueryをはじめとするデータ基盤構築のプロフェッショナルが、ヒアリングをもとに「そもそもDWHが必要か」「DWHをどう活用すべきか」「どんなツールをどう構築すべきか」などをアドバイスいたします。
ご依頼は必須ではないので、まずはお気軽にご相談ください。
DWHを効果的に活用するために押さえておきたい4つの特徴
ここからは、DWHの具体的な特徴について解説します。
1. 時系列データを扱うことが多い
DWHで保管されるデータは、時系列のものが多いです。例えば、1件の売上が発生すると、SFAなどの管理システムから情報を抽出し、新たにデータが1件追加されます。
例えば、銀行などにおける入出金データをDWHで取り扱う場合、出金や入金など全てのリクエストを、時系列順に記録します。そのため、半年前・1年前の口座残高など、任意の時点での状態や大まかなデータの流れを把握することが可能です。
2. サブジェクトごとに分類されている
DWHで保管されるデータは、サブジェクト(主題・テーマ)ごとに分類されています。
例えば、販売管理システムのデータベースには、1件の売上に対して、売上日・店舗・顧客の氏名・顧客ID・顧客住所・連絡先・商品コード・販売個数・定価などのサブジェクト別にデータが保管されています。
これをDWHで保管する時には、サブジェクトごとに置き換えます。
例えば、「顧客」というサブジェクトでは、顧客の氏名・顧客ID・顧客住所・顧客の連絡先といった、顧客にまつわる情報が集約されます。このようにデータを一つのまとまりとして管理することで、他のシステムと連携する時に、データが重複することを防ぐことができます。
また、販売システムのデータベースでは、売上が発生した時点での分析しかできません。サブジェクトごとに分解し、複数のツールとデータを統合することによって、商品を購入した顧客がその後どうなったか(顧客管理)といった、システムに依存しない分析を可能にしてくれます。
3. データが統合されている
DWHは、複数のシステムから収集した異なるフォーマットのデータを、単一のスキームに変換した状態で保管がされます。
例えば、「顧客ID」を一つ見ても、システムによっては、メールアドレスになっているケース、文字列になっているケース、整数になっているケースなどが考えられます。このような場合は、同一の顧客ではなく複数の顧客と認識されてしまう可能性があり、適切な分析につなげられません。DWHであれば、こうした情報のズレが生じず、データの整合性を高めることができます。
この処理には、通常「ETL(Extraction Transformation and Loading)」と呼ばれるツールが用いられます。ETLは、各システムのソースデータを抽出し、同一のスキームへと変換、DWHへの書き出しを自動で行います。
4. 過去データを長期保管する
最後の特徴として、過去データを長期保管する点があります。データが更新されることもなく、ただ追加されていくので、長期的な分析を可能にします。
DWHの導入は、大量のデータが蓄積されることが前提
ここまで、DWHの基本的な概念や特徴について解説しました。では、DWHはどのような企業で最もその効果を発揮するのでしょうか。
蓄積されるデータをいかに有効に活用できるかが、企業の明運を分けるといっても良い時代において、DWH並びにBIツールの導入が進むのは自然の流れですが、これらのシステムやツールを導入するには一つだけ条件があると言えます。
それは、そもそも社内で複数のシステム(基幹系システム・戦略系システムなど)を運用し、個別で分析しきれない大量のデータが蓄積されていることです。
当たり前の話ですが、そもそも分析し得るデータがなければ、DWHは何の役にも立ちません。また、仮にデータが蓄積されていたとしても、人的に管理〜分析できる範囲内であれば、高コスト ・高リソースのDWHを導入しても、費用対効果に見合わないでしょう。
また、個別のシステムで分析しきれないという点も重要です。例えば、日々の売上額や利益、販売された商品などを分析したいケースでは、販売管理システムのみで賄うことができます。
DWHは、複数のシステムに蓄積されるデータを統合し、分析することで、その効果を最大限に発揮します。例えば、販売管理システムと顧客管理システムのデータを分析することで、特定の店舗を利用している顧客が有料顧客になりやすいといった分析を導き出すことができるようになります。
DWHの導入について、プロに無料相談してみませんか?
- データウェアハウスが本当に必要なのかが分からない
- 現在描いているデータ基盤の構築が実現可能かどうかが分からない
- どんなツールをどのように導入し、どう使えば良いのか分からない
BigQueryをはじめとするデータ基盤構築のプロフェッショナルが、ヒアリングをもとに「そもそもDWHが必要か」「DWHをどう活用すべきか」「どんなツールをどう構築すべきか」などをアドバイスいたします。
ご依頼は必須ではないので、まずはお気軽にご相談ください。
DWH製品選定のポイント
膨大なデータを時系列に沿って蓄積するDWHは、策定したKPIの下、リアルタイムに変動するデータを分析することで、生産性の向上に役立てることが可能です。
製造業では在庫の削減、物流業ではコスト効率の追求に活用するなど、あらゆる業種において、データを有効活用することによる戦略的なマネジメントを強力に支援します。
ただし、DWH導入にあたっては、自社の業務に最適なシステムを構築することが求められます。以下の5つの視点からDWHの構築をご検討ください。
- サービス提供形態(クラウド or オンプレミス)
- データの処理速度
- データ容量の拡張性
- ユーザインターフェースの柔軟性
- 外部アプリケーションとの連携性
1. サービス提供形態(クラウド or オンプレミス)
オンプレミスタイプとは、自社でサーバーを設置することで、インターネットを介さずに接続できます。そのため、セキュリティ面が強固で情報漏えいのリスクを抑えることや、カスタマイズ性が高いことがメリットです。ただし、データ分析のパフォーマンス最適化のための調整も社内で行うことになります。
DWHはクラウドサービスでも提供されています。初期導入コストをかけることなく、データ容量の増加にも柔軟に対応できるのが特長です。「スモールスタート」し、常に適正な容量とパフォーマンスを維持しながらデータ分析を行うことができます。ただし、自社業務への最適化という面ではオンプレミスにおよびません。ゆずれない要件がいくつもある、という場合は注意が必要です。
2. データの処理速度
そもそも既存のデータベースの処理速度では追いつかない膨大なデータを分析するためにDWHが提唱されました。データ処理速度は、システムを検討する際の優先条件となります。
3. データ容量の拡張性
DWHに蓄積されるデータは、日々増え続けていきます。ストレージ容量の拡張性と処理速度が維持されるかどうかも、重要なチェック事項となります。
4. ユーザインターフェースの柔軟性
上記のPOSシステムの例を見るまでもなく、社内の誰もが使えるDWHでなければ、データを有効に活用することにはなりません。グラフィカルでわかりやすいユーザインターフェースが保たれるか、操作は簡単に行えるかを確認する必要があります。
5. 外部アプリケーションとの連携性
DWHは、データソースからデータを抽出し、BIツールとの連携で分析を行う中継的なシステムです。他のシステムと柔軟にデータを連携する機能は必須です。データ移行やフォーマット変換がスムーズに行えるかどうかを必ず確認してください。
DWH(データウェアハウス)の製品比較表
国内外で提供されているDWHですが、さほど種類は多くありません。以下、各公式サイトの記載に基づき、主要製品の基本情報をまとめました。目的やニーズに応じてカスタマイズや価格帯を要相談となっているケースが多いです。
提供形態 | 料金 | 無料期間 | 拡張性 | |
---|---|---|---|---|
Amazon Redshift | クラウド | 従量課金制 | 2か月間 | ○ |
AnalyticMart | クラウド オンプレミス | 要問合せ | – | ○ |
Smart DWH | クラウド | 従量課金制 | – | ○ |
Azure Synapse Analytics | クラウド | 従量課金制 | 30日間 | ○ |
Metaps Analytics | クラウド | 月額制 5万円~ | – | – |
BigQuery | クラウド | 従量課金制 | 300ドル分の無料クレジット | ○ |
YDC SONAR | クラウド オンプレミス | 要問合せ | 90日間 | – |
SOFIT Super REALISM | クラウド オンプレミス | 要問合せ | 5日間 | ○ |
IBM Db2 Warehouse on Cloud | クラウド | 要問合せ | 1,000ドル分の無料クレジット | ○ |
※2022年9月現在の情報です。
DWH(データウェアハウス)主要5製品のご紹介
以下、特に導入実績が豊富で、あらゆる業種やシチュエーションのニーズを満たす汎用性の高いDWH(データウェアハウス)5選をご紹介します。
- Amazon Redshift(クラウド型・無料期間あり)
- AnalyticMart(クラウド/オンプレミス型)
- Smart DWH(クラウド型)
- Azure Synapse Analytics(クラウド型・無料期間あり)
まずは、シェアの高い人気製品から比較検討を進めたいというかたは、ぜひ参考にしてみてください。
1. Amazon Redshift|クラウド型・無料期間あり
2. AnalyticMart|クラウド/オンプレミス型
3. Smart DWH|クラウド型
4. Azure Synapse Analytics|クラウド型・無料期間あり
DWHの導入について、プロに無料相談してみませんか?
- データウェアハウスが本当に必要なのかが分からない
- 現在描いているデータ基盤の構築が実現可能かどうかが分からない
- どんなツールをどのように導入し、どう使えば良いのか分からない
BigQueryをはじめとするデータ基盤構築のプロフェッショナルが、ヒアリングをもとに「そもそもDWHが必要か」「DWHをどう活用すべきか」「どんなツールをどう構築すべきか」などをアドバイスいたします。
ご依頼は必須ではないので、まずはお気軽にご相談ください。
DWHを用いたデータ分析の流れ
ここからは、実際にDWHを用いて、実際にデータ分析をするまでの流れについて解説します。実際には、より多くの工程が発生しますが、イメージがつきやすいように簡略化して説明します。
STEP1:DWHの要件定義
DWHの導入には、社内に散在するデータを収集するため、全社的な取り組みが必要です。技術担当者や分析担当者だけでなく、マーケティング部門・経営部門・そしてセキュリティチームとの連携が欠かせません。
各部署の担当者と、業務の中でどのようにデータが収集されているのか、また安定的にデータを収集することが可能なのかを確認しましょう。
STEP2:DWHの目的の定義
続いて、DWHを導入することによって、何を分析し、どのように事業課題を解決へと導くのかを定義しましょう。
そもそもDWHは、何らかの目的を持って導入をするものです。目的は企業によって、様々です。
- 売上の向上
- 顧客体験の最適化
- 従業員のパフォーマンス向上など
何を目的にするかによって、収集すべきデータや導入すべきDWHは異なってきます。
STEP3:DWHの環境構築
実際に、DWHの環境を構築していきます。クラウドタイプ・オンプレミスタイプのどちらを導入するのか、データストレージの拡張性などを考慮して、ツールの選定を行います。
STEP4:データの抽出〜加工
各システムのデータベースから、必要なデータを抽出します。ここでは、ETLシステムを利用します。ETLは、データベースからのデータ抽出・変換・DWHへの転送を自動で行ってくれるため、大幅な工数の削減が期待できます。
ETLで自動化できるとは言っても、DWHの設計において、データの抽出〜加工は最も時間を要するプロセスです。オンラインで抽出するのか、オフラインで抽出するのか、またソースデータ全体を抽出するのか、部分的に抽出するのかで、かかる工数や処理の負荷が変わってきます。
STEP5:データの分析〜レポーティング
BIツールどDWHを連携することで、データの分析〜レポーティングを開始します。
DWHを事業に活かした企業事例(ECサイトの顧客体験向上)
最後に、DWHの具体的な活用事例について解説します。
eBayは、米・カルフォルニア州に本社を置く、世界190ヵ国以上に商品を出品できるオンラインマーケットプレイス(越境ECサイト)です。日本での知名度は高くないものの、世界中に1億6000万人ほどのユーザーを抱える巨大ECサイトです。
DWHを含む分析システムに100PB(ペタバイト)を超えるデータを蓄積、日々訪れるユーザーが、当ECサイトでどのくらい時間を費やし、どの順番で商品を閲覧していたのかなど、顧客分析に活用しています。
また、DWHに蓄積される「顧客の購入履歴」を分析し、商品の画像と顧客の購入には強い相関関係があることを発見。質の低い画像を掲載している出品者に、改善を求めることで、販売促進へとつなげています。
まとめ|DWHの導入で、データに基づく経営判断を迅速に
DWHに、各データベースのデータを集約し、BIツールを用いて分析を行うことで、今まで発見することのできなかった新たなビジネス知見を得られ、顧客体験の向上や業務の効率化に大きく役立てることができます。
しかし、DWHの設計には大変な労力やコストを費やします。DWHの導入の結果、どんな事業課題を解決したいのかというゴールを明確に定め、費用対効果を見極めた上で導入することが大切です。
また、DWHそのもの自体が大変、理解しにくいものです。導入を検討している企業の担当者は、まずはDWHや、その周辺のデータベースとの違いをしっかりと理解し、関係者との調整をはかりつつ導入を進めていきましょう。
よくある質問とその回答
データウェアハウス(DWH)とは何ですか?
データウェアハウス(DWH)とは、企業内のシステムやアプリ、クラウドサービスなどから定期的にデータを取得し、時系列に蓄積していくデータサーバーです。
具体的には、生産管理や販売管理といった「基幹系システム」、MAツールやSFAツール・CRMツールといった「戦略系システム」、WebサイトのアクセスログやIoT機器のセンサーログなど、日々蓄積される大量のデータを格納するためのシステムのことを指します。
通常、蓄積された大量のデータを分析することによって、経営やマーケティングにおいての、重要な意思決定をサポートするために用いられます。本記事では、データウェアハウス(DWH)を活かした企業事例について紹介しています。
詳しくは「DWHとは?」をご覧ください。
データウェアハウス(DWH)の活用事例について教えて下さい。
データウェアハウス(DWH)の活用事例の一つとして、ECサイトの顧客体験向上が挙げられます。
例えば、米・カルフォルニア州に本社を置くeBayは、世界中に1億6000万人ほどのユーザーを抱える巨大ECサイトです。DWHを含む分析システムに100PB(ペタバイト)を超えるデータを蓄積、日々訪れるユーザーが、当ECサイトでどのくらい時間を費やし、どの順番で商品を閲覧していたのかなど、顧客分析に活用しています。
本記事では、その他にもデータウェアハウス(DWH)の基礎知識、4つの特徴、分析の流れについて解説しています。
詳しくは「DWHを事業に活かした企業事例(ECサイトの顧客体験向上)」をご覧ください。
DWHの導入について、プロに無料相談してみませんか?
- データウェアハウスが本当に必要なのかが分からない
- 現在描いているデータ基盤の構築が実現可能かどうかが分からない
- どんなツールをどのように導入し、どう使えば良いのか分からない
BigQueryをはじめとするデータ基盤構築のプロフェッショナルが、ヒアリングをもとに「そもそもDWHが必要か」「DWHをどう活用すべきか」「どんなツールをどう構築すべきか」などをアドバイスいたします。
ご依頼は必須ではないので、まずはお気軽にご相談ください。
著者情報
PICK UP
-
半年間で「リード数10倍以上、受注率3倍増」と、爆速でBtoBベンダーのマーケ施策が成長したワケ
株式会社ブイキューブ
-
億超の広告運用を引き継いだ未経験者が、2ヶ月でROAS30%改善した裏側
株式会社Techouse
-
「0から年間数万件の法人リードを生み出す組織へ」ネオキャリアがインバウンド文化へ変化していく5年の歴史
株式会社ネオキャリア
-
なぜ、外部パートナーがインハウスの強いマーケティングチームに信頼されたのか?じげん『アルバイトEX』の事業成長の裏側
株式会社じげん
-
「約200の商材から何を狙うか」パーソルHDオウンドメディアが1年で流入3倍、CV5倍に伸長した理由
パーソルホールディングス株式会社