データ分析をより詳細に行うことは、ビジネスにとって不可欠なものとなっています。競争力を維持するため、あらゆる規模の企業が分析ツールを使用して、分散したデータから知見を引き出し、KPIをモニターして、適切な意思決定のサポートを受けています。これらすべての取り組みを支えるデータウェアハウスは、データを効率的かつ安全に保存し、データ・アナリストやビジネスの意思決定者に同時に問い合わせ結果を迅速に提供するために設計された専用のコンピュータシステムです。
データウェアハウスとは
データウェアハウスは、大量の構造化データまたは半構造化データを保存し、分析するために設計されているコンピュータシステムです。これは、十分な情報に基づく意思決定を行うために分析に使用する権限を与えられたビジネス・ユーザーがアクセスできる中央リポジトリとして機能します。データウェアハウスは、ほとんどのビジネス・インテリジェンス(BI)戦略における主要コンポーネントです。
データは、さまざまなトランザクション・システム、リレーショナル・データベース、その他のソースから定期的に変換され、データウェアハウスにロードされます。データ・エンジニア、データ・サイエンティスト、ビジネス・アナリスト、意思決定者は、BIツールや機械学習などの他の分析アプリケーションを使用してデータにアクセスし、ダッシュボードへの入力やレポートの作成に使用します。
主なポイント
- 競争力を維持には、企業はデータに基づいてビジネスの意思決定を行う必要がある。そのためには、データウェアハウスの分析力を強化する必要がある。
- データウェアハウスは、大量の履歴データからビジネス知見を得て、分析するために使用される。
- 今日のデータウェアハウスは、リレーショナル・データベースを補完し、複数のソースからのデータを扱う。
- データウェアハウスの未来はクラウドにかかっている。
データウェアハウスの定義
データウェアハウスは、大量の履歴データの保存、クエリ実行、分析のために使用されるコンピュータシステムです。時間の経過とともに、データ・サイエンティストやビジネス・アナリストにとって貴重な履歴記録が蓄積されます。また、データウェアハウスに入力されるデータは、一連のクリーニングと前処理プロセスを経るため、保存されるデータの品質が高くなります。このため、データウェアハウスの記録は、多くの場合、組織における正確なデータソースの最終版とみなされます。
データウェアハウスには、通常次のものが含まれます。
- 管理システムと倉庫を接続する自動化されたセキュアなデータ・パイプライン
- データのクリーニングと準備のためのソフトウェア
- データおよびメタデータ管理ツール
- 高速で複雑な分析とクエリ向けにデータを再構築するセマンティック・レイヤー
- 基本的なものから高度なものまで、多様な分析およびレポート用ソフトウェア
- 重要な情報を表示するための複数のオプション
動画:データウェアハウスとは
データウェアハウスの仕組み
データウェアハウスは、リレーショナルデータやその他のデータソースを、分析のみを目的とした多次元のスキーマに変換します。この変換の間にメタデータが作成されるため、クエリや検索の速度が上がります。このデータ・レイヤーの上にセマンティック・レイヤーがあり、複雑なデータを整理して「製品」や「顧客」のような使い慣れたビジネス言語にマッピングすることにより、アナリストはデータベースのテーブル名を知らなくても分析をすばやく構築できます。最後に、セマンティック・レイヤーの上に分析レイヤーを置き、権限を持つユーザーがデータにアクセスし、可視化して、解析できるようにします。
データウェアハウスの使用目的
データウェアハウスは、非本稼働環境でさまざまな種類のビジネス・データを分析するために使用されます。代わりにデータウェアハウスを使用すると、運用データベースはトランザクションを記録し続けるため、ビジネスをサポートできます。企業は、データウェアハウスを利用して、データのパターン、傾向、異常値などの時間経過に伴う関係を見出します。
これ以外のデータウェアハウスの主な利点として、複数のソースからのデータを分析し、異なるタイプのストレージシステムからデータを抽出できることがあります。また、ユーザーが誤って本稼働環境を変更したり、乱したりすることなくデータをクエリできるため、企業のデータの整合性が保護されます。
データウェアハウスを使用するタイミング
データウェアハウスを使用するのには無数の理由がありますが、主なものは次の4点です。
-
異なるソースからのデータを分析する必要がある場合。たとえば、重要度の高い顧客の購買活動を追跡する場合は、クレジットカード処理会社の支払情報、会計システムからの財務情報、顧客が製品またはサービスを使用する際に生成するデータを組み合わせる必要があることがあります。この3つのソースからのデータを1か所にまとめて保存し、扱うことができれば、非常に簡単になります。
-
分析データとトランザクション・データを分離する必要がある場合。たとえば、アナリストは、本番アプリケーションのアクティビティログからデータを収集し、分析する場合がありますが、アプリケーション・データベースで直接作業することによって、ビジネス上の業務を中断するリスクは負わないように考えています。複雑なクエリ用に設計されたデータウェアハウスに自動的にデータを送り、データウェアハウス上で作業すれば、その可能性を回避できます。
-
元のデータソースがクエリに適していない場合。たとえば、大半のBIツールはNoSQLデータベースでは正常に動作しません。このデータを扱うには、アナリストはまずデータウェアハウスにデータを転送して、BIアプリケーションがデータにアクセスできるようにする必要があります。
-
クエリをスピードアップする必要がある場合。トランザクション・データが数十万行に及ぶ場合、標準的なクエリでは非常に時間がかかります。データウェアハウスを使用して、データを集約したサマリーテーブルを作成した方がはるかに効率的で、クエリを高速化できます。これにより、トランザクション・データベースの負担も軽減され、パフォーマンスが向上します。
データウェアハウスとデータレイク
データウェアハウスは、トランザクション・システム、業務データベース、基幹業務アプリケーションなど、さまざまなソースから大量のリレーショナルデータを分析できます。これは、数百ギガバイトからペタバイト(数兆バイト)ものデータになります。データは高度にキュレーションされているため、企業の絶対的基準、または情報の最終版としての役割を果たします。一般的なアプリケーションには、BI分析や図形による視覚化などがあります。
一方で、データレイクは、構造化されたデータ(リレーショナル・データベース内で検出されたデータなど)と非構造化されたデータ(動画、テキストメッセージ、ソーシャルメディアへの投稿を構成するデータなど)の両方を含む、あらゆる種類のデータを分析するために使用できます。これには、スクラブ、重複除去、キュレーションされていない生データも含まれます。一般的なデータレイク・アプリケーションには、機械学習、データ・ディスカバリ、ビッグデータ分析、プロファイリングなどがあります。
データウェアハウスとデータベース
データベースは、発生したトランザクションのレコードを作成するように設計されています。クレジットカード処理システムのような単一のソースからのデータを「そのまま」取り込みます。トランザクションが処理されるたびに、リアルタイムで継続的に実行されます。
それと比較して、データウェアハウスは、さまざまなソースからの膨大なデータを分析するように設計されています。個々のデータ入力を最速で登録するのとは対照的に、データウェアハウスでは、データが記録された後で、その大量のデータを迅速にクエリするように最適化されています。
データウェアハウスとデータマート
データマート (新しいタブで開きます)は、データウェアハウスのサブセットで、財務、マーケティング、営業などの専用の機能または事業部門のニーズに特化したものです。データマートは、本格的なデータウェアハウスよりも小規模で、専門性が高く、比較的少ないソースからのデータを集約します。これは、独立した個別のシステムとして設定することも、より大規模なデータウェアハウスの一部として設定することもできます。
データウェアハウス、データベース、およびデータレイクの連携方法
多くのビジネスでは、データベース、データレイク、データウェアハウスを組み合わせて使用し、データの保存と分析を行っています。データは業務データベースに記録され、さらに分析するためにデータウェアハウスに送られます。
ただし、すべてのデータがテーブル形式でデータを保存する構造化データベースから取得されるわけではありません。
ビッグデータ分析、全文検索、機械学習などの一部のアプリケーションは、電話や手書きメモなどの非構造化データを利用できます。このようなデータは、企業のデータレイクに取り込まれ、データウェアハウスでさらに分析するために準備できます。
データウェアハウスの機能
データウェアハウスは、データ分析を行うために特別に設計されています。これは通常、さまざまなソースからの大量のデータを分類し、データからさまざまな傾向や関係を解明する必要があります。これには、コアになる機能が2つあります。
-
データを処理・管理して、高度な分析やレポートに利用できるようにする。
-
データを保存し、さまざまなBIや分析プログラムで活用できるようにする。
これらの基本機能を組み合わせることにより、さまざまな分析ツールによって、多種多様なソースからのデータを統合します。それらを調査することによって質問への回答、ビジネストレンドの発見、将来の業績予測を行うことができます。
データウェアハウスの種類
データウェアハウスは元々すべてがオンプレミスでしたが、他の情報技術(IT)と同様、急速にクラウドに移行しつつあります。ここでは、そのオプションと、それぞれの特徴について説明します。
オンプレミス・データウェアハウス。
オンプレミスでは、必要なすべてのハードウェアとソフトウェアを使用する企業が購入、ライセンス取得、導入、メンテナンスを行います。この方法は現在も使われており、組織では次のような利点があります。
- 使用者や使用目的などを含め、システム全体を完全に制御する。
- 特定の要件に合わせてデータウェアハウスをカスタマイズし、パフォーマンスを最適化できる。
データウェアハウス・アプライアンス。
オンプレミスのデータウェアハウスの一種に、データウェアハウス・アプライアンスがあります。このような自己完結型のハードウェアデバイスにより、企業はデータウェアハウスのインフラストラクチャをより簡単にスケールアップでき、企業の成長と拡大に伴うビジネス・アナリティクスのニーズをサポートできます。ただし、これらのアプライアンスは、一般的なオンプレミス・システムと同様に、あらゆる規模の企業が最新のデータウェアハウスに移行するにつれて置き換えられつつあります。
クラウド・データウェアハウス。
他のクラウドベースのアプリケーションと同様に、クラウド・データウェアハウスは、企業でハードウェアやソフトウェアを購入したり、メンテナンスしたりする必要がありません。企業では、必要な時間分のサブスクリプション、ストレージスペース、処理能力に対して料金を支払うだけで済みます。クラウド・データウェアハウスの容量を拡張するには、クラウドリソースを追加するだけで済みます。これらの作業はクラウド・サービスプロバイダーが行うため、基盤となるテクノロジー・インフラストラクチャの管理やメンテナンスのための要員を抱える必要はありません。
データウェアハウスにクラウドベースの手法を選択することによって、企業に多くの利点がもたらされます。たとえば、以下のようなものがあります。
-
スケーラビリティ: クラウド・データウェアハウスでは、ビジネス・ニーズの変化に応じて容量を増減できます。
-
コスト削減: クラウド・データウェアハウスでは、物理サーバーの購入やセットアップの必要がないため、初期コストを削減でき、総所有コスト(TCO)も抑えることができる可能性があります。企業では、必要なストレージとCPUタイムに対してのみ料金を支払います。この従量課金制の方式により、企業は需要のピークに対応するための追加の容量など、設備投資を行う必要がなくなりました。また、クラウド・プロバイダーによって、必要なシステム・メンテナンス、管理、アップグレードすべてに対応するため、これらのコストも最小限に抑えられます。
-
幅広いアプリケーション: 一流のクラウド・データウェアハウスでは、ID、アクセス管理、一連のデータ分析ツールなど、関連する多くのクラウドサービスを提供します。これにより、ソフトウェア開発コストの削減につながります。
-
セキュリティ: クラウドへの移行に反対するケースとして、セキュリティの懸念が挙げられていますが、実際にはセキュリティを強化するという利点があります。一流のクラウド・サービスプロバイダーは、ほとんどの企業が対応できる範囲をはるかに超えるセキュリティ・コントロールに投資しています。
-
高可用性: これもまた、クラウド・サービスプロバイダーが多額の投資を行っている分野の1つです。クラウド・データウェアハウスでは、99.9%の可用性を保証するサービスレベルが一般的であり、クラウド環境内の異なるリージョン間でデータをレプリケーションする機能は、ローカルシステムに障害が発生した場合でも、企業はデータにアクセスできます。
-
市場投入までの期間(TTM)の短縮: 以上のことから、クラウド・データウェアハウスを使用すれば、遅延や障害の減少につながります。組織のビジネス・アナリストとデータ・サイエンティストは、よりすばやく知見を得ることができます。つまり、ターンアラウンドを迅速化し、新製品やサービスのリードタイムを短縮します。
データウェアハウスのアーキテクチャ
データウェアハウスの設計またはアーキテクチャは、通常、次の3つのレイヤーで構成されます。
-
分析レイヤー。
分析レイヤーは、データ可視化ツールを使用した分析結果を示すユーザー向けのフロント・エンドです。
-
セマンティック・レイヤー。
セマンティック・レイヤーは、データへのアクセスと分析に使用される分析エンジンで構成されます。
-
データ・レイヤー。
アーキテクチャのデータ・レイヤーはデータベース・サーバーであり、ここでデータの変換、ロード、管理、保存が行われます。
これら3つのレイヤーは一貫していますが、個々のデータウェアハウスのアーキテクチャは、通常、企業のニーズに合わせて変更されます。基本的なこととして、すべてのデータウェアハウスには、メタデータ、要約データ、生データを保存するための中央データベースが含まれています。これは、データを取り込み、ビジネスの意思決定者が分析のためにアクセスするリポジトリです。このシンプルなアーキテクチャをベースに、次のような方式もあります。
-
ステージング領域を備えたシンプルなアーキテクチャ: 一部のデータウェアハウスでは、中央のウェアハウス・リポジトリに入力される前にデータが準備されるステージング領域が追加されます。
-
ハブ・アンド・スポーク: この方式は、企業のデジタル領域へのさまざまな事業部門に固有のデータサブセットを含むデータマートを提供し、より迅速かつ効率的に分析します。
-
サンドボックス: 仮想サンドボックスは、企業がデータを安全に「検討」できるセキュアなコンピューティング・スペースです。ここでは、さまざまな方式を選択できます。データは、データウェアハウスの中央リポジトリを管理するルールに準拠する必要はありません。
データウェアハウス・スキーマ
すべてのデータウェアハウスはスキーマに基づいています。スキーマとは、データの構成方法を示す設計図のようなもので、つまり論理的記述のことです。これには、データウェアハウスが保有するさまざまな種類のレコードの名前と説明が含まれます。次のような3つの基本モデルがあります。
スター・スキーマ。
スター・スキーマでは、データテーブルは一次元です。つまり、各テーブルには、1つの属性(時間、場所、販売単位など)を記述するデータが含まれます。
スノーフレーク・スキーマ。
スノーフレーク・スキーマはより複雑ですが、ストレージ領域が少なく、メンテナンスも簡単です。データテーブルは多次元であり、単一の属性ではなく、関連する属性を提供する追加のテーブルに細分化されています。そのため、たとえば、売上に関するテーブルにはロケーション属性が含まれ、その属性は市町村や番地などの詳細情報を提供する別のテーブルにリンクされている場合があります。ロケーションテーブルの市町村エントリは、その市町村がある都道府県および国に関するデータを保持する別のテーブルにリンクすることもできます。
ギャラクシー・スキーマ。
コンステレーション・スキーマはギャラクシー・スキーマとも呼ばれ、スター・スキーマとスノーフレーク・スキーマを掛け合わせたようなものです。一次元と多次元の両方のデータテーブルを含めることができます。
データウェアハウスの利点
データウェアハウスの主な(全体的な)利点は、企業がさまざまな種類のデータを大量に分析し、その履歴記録を保持できることです。より具体的なデータウェアハウスの利点には、次のようなものがあります。
- さまざまなソースからのデータを統合します。
- 最高レベルのデータ品質、一貫性、正確性を維持します。
- 組織のトランザクション・データベースと、それらがサポートする業務を中断することなく、データ分析を実行できます。
- 履歴データ分析を実行します。
- 上記に基づき、企業が質の高い意思決定を行うのに役立ちます。
データウェアハウスの欠点
データウェアハウスには多くの利点がありますが、欠点もあります。主な懸念事項としては、次のようなものがあります。
-
データウェアハウスはスケールアップのコストが高く、生データ、非構造化データ、複雑なデータの処理に優れているわけではありません。
-
データウェアハウスを運用すると、一部の組織では負担が増える可能性があります。必要なデータは、通常、ITチームが事業や部門の機能ごとに作成する必要があります。これは、既存のデータベースからデータを複製するという単純な場合もありますが、顧客や従業員、その他のソースから追加データを収集する場合もあります。
-
データウェアハウスが大規模なITプロジェクトとなり、多くのリソースを消費する場合があります。適切な方法を選択しないと、費用対効果が得られない可能性があります。
-
多くの貴重なデータを1か所に集約することによって、セキュリティ上のリスクが発生します。データウェアハウスから顧客データを漏えいさせると、プライバシー・コンプライアンスや広報において、最悪の事態を引き起こすおそれがあります。
-
データウェアハウスの構造は、組織の柔軟性と利便性が制限される場合があります。データセットは静的であることが多く、実際に使用されるまでに数日から数週間経過していることがよくあります。さらに、データの編成方法によって、実行できるクエリの種類が制限されることもあります。また、データウェアハウスは、処理やクエリを高速化するための微調整が難しいことでも知られています。
データウェアハウスの例
ここでは、3つの異なる産業分野において、データウェアハウスがどのように業務のサポートに使用されているかを紹介します。
-
金融や保険業界では、顧客や市場動向を分析するためにデータウェアハウスが利用されています。データウェアハウスが主要な役割を果たす2つの事業部門は、外貨取引(外国為替)と株式取引です。これは、これらの市場では、小さな変動が大きな損失を引き起こす可能性があるためです。金融やトレーディングのアプリケーションでは、データウェアハウスは通常リアルタイムのデータストリーミングを使用しています。
-
小売業者では、データウェアハウスは主にBIと予測アプリケーションで使用されています。たとえば、製品パフォーマンスの追跡、最適価格設定の決定、プロモーション戦略の評価、顧客の購買パターンの分析などがあります。
-
データウェアハウスは医療分野全体に普及しており、治療結果の予測、集団の傾向の追跡と分析、保険会社とのデータの共有、研究データの収集と分析に幅広く利用されています。
データウェアハウスの歴史
コンピュータシステムがユビキタスで複雑になり、処理されるデータ量が増大するにつれて、そのデータを保存、アクセス、分析するための要件がより厳しくなりました。このような状況を受け、より効率的なデータウェアハウスの初期の取り組みが始まり、メインフレームがデータ処理の世界を支配し、マイクロプロセッサ・ベースのパーソナル・コンピュータがまだ発明されていなかった時代までさかのぼります。
ここで、データウェアハウスの進化における重要なマイルストーンをいくつか紹介します。
-
1960年 - Dartmouth UniversityとGeneral Millsは共同研究プロジェクトで、データテーブルとスキーマの最も初期の概念の一部を開発しました。
-
1970年 - NielsenとIRIは、小売業者向けのデータマートを導入しました。
-
1983年 - Teradataは、意思決定支援のために特別に設計されたデータベース管理システムを導入しました。
データウェアハウスの現代的な概念は、IBMのPaul MurphyとBarry Devlinがビジネス・データウェアハウスを開発した1980年代後半に出現しました。しかし、データウェアハウスの生みの親と言われているのはWilliam Inmonであり、その概念を最初に詳しく説明し、「企業の情報ファクトリ」という概念と結びつけました。
データウェアハウスの未来
データウェアハウスの未来はクラウドにかかっている。ビッグデータとデータ分析で成功を収めたことにより、企業ではデータへのさらなる欲求を刺激されています。データウェアハウスをクラウド・コンピューティング・サービスに置くことにより、企業では増え続ける分析要件に対応するため、データウェアハウスの容量をコスト効率よくスケールアップできます。
また、クラウドにデータウェアハウスを持つ企業では、オンプレミスのデータウェアハウスでは大きな懸念事項であった、分析ソフトウェアを最新の状態に保つことに留意する必要がなくなります。サービスプロバイダーに責任が移れば、その懸念は完全になくなります。セキュリティの強化や初期コストの削減などのさまざまな理由から、クラウドベースのデータウェアハウスの導入は、今後は一般的になっていくと予想されます。
今日のデータ中心ビジネス向けに新しいデータウェアハウスが誕生
今日のビジネスでは、データを活用することなしに競争力を維持することはできません。あらゆる種類と規模の企業が、最新の製品を提供し、顧客との関係を維持するために、データドリブンの分析情報を利用しています。データを最大限に活用し、最大限に知見を引き出すために、企業では低コストで簡単に導入が可能な、使いやすいクラウドベースのデータウェアハウスを求めています。
NetSuite Analytics Warehouse (新しいタブで開きます): Oracle Autonomous Data WarehouseとOracle Analytics Cloudテクノロジーに基づく新しいクラウドベースのデータウェアハウスで、クラウドから提供されるNetSuiteの業務アプリケーションでの使用に最適化されています。NetSuite Analytics Warehouseは、NetSuiteアプリケーション・データをデータウェアハウスのフォーマットに自動的に変換して可視化するように事前に構築されており、複数の外部ソースのデータと組み合わせて分析することにより、より強力なビジネス知見を得ることができます。クエリを迅速に実行し、データ・アナリストやビジネスの意思決定者がさまざまなニーズに合わせてデータを細分化する柔軟性を高めます。
コマースがデジタル領域への移行するにつれて、企業では製品エンジニアからセールスマネージャーに至るまで、誰もがより効率的に業務を遂行し、ビジネスを前進させるような革新的な仕事につながるようなデータ分析が行えるように、データ知見を得る術を身に付ける必要があります。そうしなければ、すでに実践している組織に後れをとってしまいます。このように、ビジネス・インテリジェンスの基盤になるように適切にデザインされたデータウェアハウスは、あらゆる規模の組織にとって必要不可欠なものとなっています。
評価の高い
データウェアハウス管理
ソフトウェア
データウェアハウスに関するよくある質問
データウェアハウスは何に使用されますか。
データウェアハウスは、従来のデータベースの制限を受けることなく、さまざまな種類のビジネス・データを分析できます。一般的なリレーショナル・データベースとは異なり、複数のソースからのデータを分析し、異なるタイプのストレージシステムからデータを抽出できます。また、ユーザーが誤ってデータを変更したり、乱したりすることなくデータをクエリできるため、企業のデータの整合性が保護されます。
データウェアハウスの一例を紹介してください。
小売業者では、データウェアハウスを予測に使用しており、ビジネス・インテリジェンスが提供されています。たとえば、製品パフォーマンスの追跡、最適価格の決定、プロモーション戦略の評価、顧客の購買パターンの分析などです。
データウェアハウスのプロセスとは何ですか。
データウェアハウスでは、複数のソースからの大量のデータを一元化して統合します。時間の経過とともに、データ・サイエンティストやビジネス・アナリストにとって貴重な履歴記録が蓄積されます。保存されるデータは最高品質であり、データウェアハウスの記録は最終的なものとみなされることが多く、組織の「信頼できる唯一の情報源(SSOT)」として機能します。
多くのビジネスでは、データベース、データレイク、データウェアハウスを組み合わせて使用し、データの保存と分析を行っています。データは業務データベースに記録され、さらに分析するためにデータウェアハウスに送られます。