データレイクとは?
有用性とDWHとの比較
データレイクは、企業のあらゆるデータを未加工の状態で集積し、将来の分析に備えるための、いわばデジタルな貯水池のようなものです
データレイクとは
データレイクとは、加工されていないローデータを格納するための一元的なリポジトリです。データレイクは多様なソースから大量のデータ(構造化/半構造化/非構造化)を格納できるように設計されています。データレイクを利用することで、企業が必要とするデータの最小限から最大限まで保持することができます。また、データレイクはデータのサイズや容量に関係なく、ローデータを処理し整理することができるため、分析用途やデータ統合において力を発揮します。
データレイクはこれらの大量のローデータをメタデータタグとユニークな識別子を備えたフラット・アーキテクチャに格納します。これにより容易かつ素早い検索ができます。データレイクを使用することで、企業はあらゆるソースからあらゆる種類のデータを構造化することなく収集し、分析アプリケーションまたはPython、SQL、Rなどの言語を利用して分析することができます。
ビジネスにおけるデータレイクの有用性
データレイクは、単なるデータの巨大なリポジトリではありません。データレイクは容易なデータの取り込みと発見を提供し、併せてレポーティングのための堅牢な構造を備えています。
データレイクは、蓄積されたデータに膨大な量のコンテキストを与えます。それにより企業はビジネスシナリオを深く理解し、ソーシャルメディアをベースとした機械学習(ML)の実行など、迅速な分析実験を行うことが可能になります。
このような分析成果は、ビジネス機会の特定や戦略実行に役立ち、それらは生産性や顧客満足度の向上に繫がります。また、データレイクは全てのレベルでデータを利用できるようになります。そのため、企業のあらゆるレベルにおいて優れた意思決定が可能になります。データレイクは拡張性と汎用性に優れています。人工知能(AI)や分析の基盤として、あらゆる業界の企業が収益の向上とリスク削減を求めてデータレイクを導入しています。
例えば、オムニチャネルマーケティングを導入している企業では、データソースがチャネル、タッチポイント、さらにはサードパーティのデータに及ぶため、データレイクが有用であることがわかります。このようなデータの複雑なエコシステムは、日々増え続けています。
データレイクを利用すべき理由
データレイクは、すぐに使用する必要のないデータを保存するのに適しています。あらかじめ定義されたスキーマがないため、データは元の属性をすべて保持し、後で整合性を取ることができます。データレイクはあらゆる業界でますます好まれています。その理由としてデータレイクはデータアナリストに未クレンジングのビューを提供し、必要な時にだけデータを処理すれば良いため、コスト効率性が優れているからです。企業がデータウェアハウスではなく、データレイクを選択する理由はその他にもあります。
データの一元管理
データレイクは、大量のデータを一元的に保管することができます。一元管理されたリポジトリは、データのサイロ化を防止します。
高品質な分析データの提供
データレイクには多様なローデータが蓄積されています。それらのデータをオリジナルのまま提供することで、アナリストに堅牢かつ高品質な分析データを提供することができます。AI/MLを活用し重要な洞察を獲得するのに便利です。
Schema on Read
データレイクはあらゆる種類のデータを保存するため、スキーマ設定の必要がありません。データは分析で必要になるためローデータのまま保持されます。これを”Schema on read”と言います。スキーマ設定は対象のデータが分析に必要なときだけ行われます。これにより、データレイクへのデータ取り込み時の処理時間が短縮されます。
柔軟性
ユーザーはデータレイク内のデータを、他のシステムに移動することなくアクセスおよび探索することができます。データレイクから得られる洞察やレポートはアドホックに引きだすことができるため、より柔軟なデータ分析が可能になります。
競争優位性の獲得
データレイク内のローデータに基づいて優れた予測を行うことができるため、企業は競争上の優位性を獲得することができます。また、分析実験により、ビジネス上の意思決定の効率も向上します。
データの民主化
企業内のさまざまな部門、レベル、そしてチームのユーザーが、同じデータセットにアクセスし、さまざまな分析を実行することができます。
データレイクのコンセプト
データレイクには、アーキテクチャを理解するのに役立ついくつかの基本的なキーコンセプトがあります。
データの取り込み
異なるソースからデータを取得し、データレイクにロードするためにのさまざまなコネクタを使用することができます。非構造化データ、半構造化データ、構造化データを、単発、バッチ、またはリアルタイムでロードすることができます。FTP、Webサーバー、データベース、IoT機器など、さまざまなデータソースを接続することが可能です。
データストレージ
データレイクのストレージは拡張性があるため、コスト面で優れています。また、アクセスの高速化にもつながります。
データガバナンス
データガバナンスとは、保存されているデータの可用性、有用性、セキュリティ、完全性を管理するプロセスです。
セキュリティ
データの保護、認証、説明、制御を確実に行うために、適切かつ効果的なセキュリティプロトコルを導入する必要があります。データレイクアーキテクチャーのストレージ・発掘・利用の各レイヤーにおいて、不正アクセスからデータを保護する必要があります。
データ品質
データはビジネス価値を生み出すものであり、データレイクのアーキテクチャにおいてデータ品質は不可欠です。
データ探索
データ分析の最初のステップとして、正しいデータセットを特定するためのデータ探索が重要となります。
データディスカバリー
データディスカバリーの段階では、データにタグを付け、それを整理・解釈することでデータを理解し、さらなる分析に役立てます。
データ監査
データ監査は、データセットの2つの主な変更を追跡します。
- データセットの要素への変更
- 「誰が」「いつ」「どうやって」変更したかをログに残す
データの可監査性は、コンプライアンスを維持し、リスクを低減するために役立ちます。
データリネージュ
データリネージュ(系列)は、データの出所、時間経過に伴う移動先、そして変化など、データの動きを追跡します。データリネージュにより、エラーが発生しても解決が容易になります。
データレイクのアーキテクチャ
データレイクには「ストレージ(Storage)」と「コンピュート(Compute)」の2つのコンポーネントがあります。どちらもクラウドまたはオンプレミス上に実装することができ、さまざまな組み合わせと設定が可能です。企業は、クラウド、オンプレミス、またはハイブリッドモデルのいずれかを選択することができます。
データレイクのアーキテクチャは、3つのコンポーネントで構成されています。
1.データソース
データは、さまざまな同一または異なるソースからデータレイクに取り込まれます。以下はデータソースの代表例です。
- ビジネスアプリケーション:データベースまたはファイルベースのデータストアアプリケーションで、トランザクションデータを保存し、ETLのためにコネクタ、API、またはウェブサービスを通じて接続されているもの。
- データウェアハウス(DWH):既存のDWHもデータレイクのソースと成り得ます。
- 複数ドキュメント:トランザクションデータを格納するフラットファイル
- SaaSアプリケーション
- デバイスログ
- IoTセンサー:IoTセンサーから取得されたデータストリームもデータレイクに接続可能です。
2.データ処理レイヤー
データ処理レイヤーには、データストア、メタデータストア、そしてデータの高可用性をサポートするためのレプリケーションを備えています。このレイヤーは、拡張性、レジリエンス、そしてデータセキュリティをサポートできるように設計されています。管理者は適切なビジネスルールと設定を維持します。
3.転送先とアナリティクス
データはデータ処理レイヤーで処理された後、コネクタを通じてターゲットシステムやアプリケーションに転送されます。以下は転送先の一例です。
- データソース統合によって構築される新たなDWH
- ローデータを抽出し、ビジネスケースをサポートするための最適化されたモデルを生成する機械学習プラットフォーム
- データレイク経由のデータ向けに構築された分析ダッシュボード
- データレイクのデータからチャートやグラフを作成するSpotfireようなデータ可視化ツール
データレイクの価値
データレイクは、単に完全忠実なデータを保存するだけのものではありません。データレイクは、コンテキストを提供します。これは、企業がビジネスシナリオを深く理解するだけではなく、そのうえでさまざまな分析実験を行えるようにするものです。企業は、さまざまなソースからローデータを変換することなく、簡単にデータレイクに移動させることができます。この”Schema on read”により、処理時間が大幅に短縮され、データアナリストに幅広いユースケースでローデータにアクセスする機会を与えます。データレイクはその他のビジネス要件にも対応します。
データマネジメントをシンプル化
データレイクは、さまざまなソースからの大量、多様、高速なデータを処理するための機能を備えています。
データを高速に書き込み
データレイクは、データの取り込み時にデータの処理が発生しないため、高速に書き込みができます。
所有コストの削減
データレイクは、データウェアハウスと比較すると、さまざまなソースからあらゆる種類のデータを収集し、処理することなく利用できるため、大幅なコスト削減が可能です。
アナリティクス
必要なときに必要なだけデータを処理することで、より迅速で詳細な分析が可能になります。また、データをAI/MLアプリケーションに取り込むことも容易です、
全社横断のアクセシビリティ
データレイクは「データの民主化」を実現します。つまり、企業内のレベルや役職に関係なく、ユーザーはデータにアクセスし、レポーティングなどに活用することができます。
データレイクの課題
理論的には、データレイクはあらゆるビジネスにとって理想的なソリューションのように思えますが、データレイクが直面するいくつかの課題があり、いくつかの期待に応えられない可能性を含んでいます。しかし、これは企業がデータレイクを使うべきではないということを意味するものではありません。ユーザーが期待できる価値を全て得られるためには、データレイクを適切な方法で管理、維持する必要があるだけです。以下にデータレイクを採用する際に直面する可能性のある課題の一例を紹介します。
高コスト
世の中にはオープンソースのデータレイクが存在します。しかし、その構築および管理にはノウハウが必要不可欠であり、それが結果としてより多くの時間およびリソースを費やしてしまう可能性があります。代替手段として、マネージド・プラットフォームに投資する方法がありますが、これには通常高額な費用が発生します。
管理
データレイクの管理は容易ではありません。データの可用性を担保するためにのインフラ基盤の容量を把握することや、データの完全性を確保するといったことは、懸念事項のほんの一部にすぎません。そしてこれらの懸念はオープンソース、マネージド・プラットフォームのどちらにも起こりうります。
タイムフレーム
データレイクが大量のデータを取り込み、分析ツールと連携して真の価値を提供し始めるには、時間がかかります。社内トレーニングや有識者のリクルーティングもタイムライン長期化の一因となります。
データガバナンス
データレイクのデータ量は膨大であり、そのためプログラムによる処理に依存します。適切なガバナンスが維持されていないと、データレイクはいとも簡単にデータの沼(Data Swamps)となり、アクセス不能のリソースの無駄遣いとなってしまいます。しかし、適切なガバナンスにはお金と時間がかかります。
セキュリティ
クラウドベースのデータレイクにおけるセキュリティは、多くの企業にとって依然として大きな懸念事項です。長年にわたり適切な保護レイヤーが導入されてきましたが、データ盗難への不安は依然としてデータレイクベンダーが直面する課題です。
マイグレーション
多くの企業がすでにDWHを持っているため、長年にわたって慎重に扱ってきた構造化データを、構造化データであることの意味を成さないデータレイクに移行することを望まないかもしれません。
テクノロジーの進化
データは指数関数的に増加していますが、システムの計算能力がそれに追いついていません。この増大するデータを効率的に処理する方法がない限り、企業はストレージの方法を節約する一方で、計算能力向上のために多くの費用を費やすことになりかねません。
データレイクとデータウェアハウス(DWH)の比較
データレイクはデータウェアハウスと混同されがちですが、それは基本的な用途や目的が似ているためです。両者には以下の共通点があります。
- さまざまなデータソースのデータを保存する
- 複数のアプリケーションにデータを供給するためのワンストップのデータソリューションとしての役割を果たす
データウェアハウスは、処理されたデータを保存し、データ分析を支援します。保存されるデータはサブジェクト(販売在庫やサプライチェーンなど)ごとに分類され、時間軸(日、月など)も含まれます。データウェアハウスは、データ構造が一貫している限り、複数のデータソースを結合することが可能です。
データレイクは、複数のデータソースからのデータ形式を問わず保存することができ、性質上非常にスケーラブルです。データレイクはすぐに分析や処理が必要ない場合にデータを保管するのに適しています。
そのほか、データレイクとデータウェアハウスの違いには以下のようなものがあります。
1.データの取り込み
データレイクはあらゆる種類および構造のデータをローデータのままソースから取り込むことができます。一方、データウェアハウスは事前のスキーマ定義に基づいた構造化データのみを取り込むことができます。
2.データの保存方法
データレイクとデータウェアハウスの基本的な違いは、データの保存方法です。データウェアハウスではスキーマがあらかじめ定義されていますが、データレイクにはスキーマがありません。つまりデータウェアハウスでは、データの書き込み時にスキーマが適用されるのです。データウェアハウスにはあらかじめ処理され、構造化されたデータのみが存在します。これにより迅速な分析が可能になりますが、あくまで特定目的のために処理をされたデータで分析を行うため、事前のシナリオが無いユースケースには適用できません。
データレイクでは、ローデータを保存することができます。したがってデータレイクはデータを迅速に取り込むことができ、データは利用される時にのみ処理されます。このアプローチは、データウェアハウスで使用されている従来の”Schema on write”に対して、”Schema on read”と呼ばれています。データレイクはデータの元の属性を保持でき、将来のあらゆるユースケースに利用できるため、より高いビジネス価値を持っていると言えます。
3.アクセシビリティ
データウェアハウス内のデータは適切に構造化され、処理されているため、技術者ではないビジネスユーザーでも簡単にアクセスし、作業することができます。一方データレイクは、格納されているデータ型や各データのリレーションシップを十分に理解している専門家でしか、アクセス・利用することができません。その複雑性からデータサイエンティストやデータアナリスト向けであり、通常一般ユーザーはアクセスが禁止されます。
4.柔軟性
データレイクはデータウェアハウスに比べて、変化に素早く対応でき、拡張性も高いため、より柔軟性があります。データウェアハウスでは、データを書き込む前にスキーマを定義する必要があるため、多くの時間とリソースが必要になることがあります。また、将来的に新たなニーズが発生した場合にも、必要な変更を行うために相当な労力が必要となります。
両者を比較すると、データウェアハウスはレポートやその他の重要なパフォーマンス指標を求めるビジネスユーザーにとって良い選択肢であり、データレイクはデータの深い分析を求める企業にとって理想的な選択肢です。ただし、データレイクは必ずしもデータウェアハウスに取って代わるものではありません。いくつかのシナリオでは、データレイクはデータウェアハウスのためのステージングエリアとして活用されています。データレイク内のデータで前提条件や仮説を簡単に検証し、最も重要なデータだけをデータウェアハウスにロードして意思決定を行うことができます。クラウド、データサイエンス、人工知能テクノロジーが最前線にある今日、データレイクは人気を博しています。柔軟なアーキテクチャで、ローデータを格納でき、データパターンの全体像の把握が可能なデータレイクは、より優れた洞察を求める多くの企業にとって興味深い存在となっています。