データカタログとは?
必要性と失敗しない要素、ツールを紹介
データカタログとは、企業のデータを整理し、必要な情報を簡単に探し出せるようにする「データの目録」です。図書館の蔵書目録のように、データの種類、内容、場所などを一元管理することで、データ分析を効率化し、ビジネスの意思決定を支援します。
データカタログとは
データカタログとは、企業のデータ資産の目録(インベントリ)です。データカタログを使用することで、ユーザーは必要な情報を素早く見つけられるようになります。データカタログは、あるデータについての端的な説明を述べたものであり、メタデータの一種ですデータカタログは、データマネジメントに検索ツールを組み合わせることで実現されます。
ビッグデータ時代において、データカタログはデータマネジメントにおける重要な要素です。データカタログを使用すれば、たとえ企業のデータが各所に分散していて、そのままでは全貌を把握することができないほど複雑だったとしても、企業全体のすべてのソースから必要なデータ資産を探し出すことができます。データカタログの導入が成功すれば、ユーザーは必要なデータを素早く見つけることができ、データ分析においても飛躍的なスピードと品質を得ることができます。
データカタログは、企業に複数の価値を提供します。まず、データカタログは、適切な情報源を、適切なフォーマットで、適切なタイミングで、適切なビューで、適切なコントロール下にてユーザーに提供することができます。データカタログは、マルチクラウド環境下でのすべての異なるソースを跨いで、ユーザーが利用可能なすべての情報を発見できるようにし、即座に活用できるようにします。それは、ユーザーがリアルタイムに分析のためのモデルをビルド&デプロイすることができるようになることを意味します。
データカタログは、利用したいデータに関する情報を提供する以外にも、メタデータ管理の自動化も可能にします。自動化により、データカタログは信頼できる唯一の情報源(SSOT)となり、ステークホルダー同志が連携をとりつつ共同でデータをキュレーションし、収集することができるようになります。
データカタログを説明する際によく使われる例えとして「図書館」があります。図書館は書籍などの情報資産をストックしており、情報資産を整理するためのシステムを必要とすることから、データカタログの理想的なメタファーです。図書館を例とした場合、書籍が情報資産であり、書籍のタイトル、著者、ISBN、ジャンルといった情報がメタデータにあたります。書籍のあり場所を示すカタログは正にデータカタログの仕組みそのものです。読者は借用可能な書籍リストを元に、好みに合わせて候補を選定し、借りる本や必要なデータを素早く選ぶことができるのです。
ビジネスにおけるデータカタログの必要性
ビジネスデータは日々、驚異的に増加しています。世界のデータ量は、2018年の33ゼタバイト(ZB)から、2023年には、175ZBという膨大な量に拡大すると予想されています。このような規模のデータは、取り扱いもナビゲーションも困難です。データは複数のクラウドプロバイダーに、異なるフォーマット、異なるストレージ技術で保存されているでしょう。データは時間が経つと陳腐化してきます。また、データセットは常に変化していきます(新しいデータセットを追加したり、既存のデータセットから新しいデータセットを派生させたりするため)。また、ユーザーにおいても、データサイエンティスト、開発者、ビジネスユーザーとさまざまなタイプがおり、要件やスキルセットもそれぞれ異なります。ビジネスユーザーがビジネス上の問題を解決する必要があるときに、常にIT部門が新しいソリューションを構築できる状況では最早ありません。すべてを包括的に管理する方法が必要なのです。
データカタログは、リソースを消費しない、論理レイヤを使うという方法でデータを体系的に扱うための必須のステップです。データカタログは以下をサポートすることにより、企業にとって重要なデータ資産の一つであることが証明できます。
- データの品質、構造、用途、統計に関する情報を含む、データを保管する器となります。
- 実際のデータとともにメタデータにアクセスすることで、互いに離れたユーザー同士でも問題なく共同作業ができます。
- データを自動かつ頻繁に更新することで、データ全体にわたって正確性と整合性を確保することができます。
- データリネージュ(系列)にアクセスし、データの出所、変更、データへのアクセスなどの情報を確認することができます。
- データ資産を安全な方法でステークホルダーと共有することができます。
データカタログ成功の鍵となる要素
データカタログはいくつかの方法で作成することができますが、効率的なデータカタログの導入を成功させるためには、次のような要素が必要です。
コネクタとキュレーションツール
データカタログは、信頼できる唯一の情報源として機能します。コネクタは、データベース内の物理的なデータセットをマッピングします。したがって、データカタログの機能として、さまざまなコネクタを用意することが重要です。メタデータは、Salesforce、SQLクエリ、ビジネスインテリジェンス、データ統合ツールなど、複数のソースから取得できるため、これらのメタデータを適切にキュレーションすることが重要です。データのバリデーションおよびアクセス認証は、データカタログの効率を高め、データガバナンスを持続可能なものにするための重要なプロセスです。
自動化
データカタログを自動化することで、ユーザーはメタデータのバリデーションや誤りの修正といった重要なプロセスに集中することができます。これにより、データカタログのスピードとアジリティが向上し、企業内のデータセットがより充実したものになります。
効率的な検索機能
検索機能は、データカタログの主要なコンポーネントです。強力な検索機能はシチズンデータサイエンティストなどのユーザーに幅広い選択オプションとデータへの便利なアクセスを提供します。そのため、一度の操作で高度な検索ができるように、いくつかのパラメータを用意しておくことが重要です。
リネージュまたはライフサイクルトラッキング
データリネージュ(系列)は、データのライフサイクルを確認するための機能を提供します。データに何かしらの相違がある場合、ユーザーはデータカタログを利用することでリネージをトラックし、問題の発生場所を突き止めて修正することができます。また、リネージュは企業内に存在するさまざまなデータソースやデータ型を把握するのにも役立ちます。
共通用語集とデータディクショナリー
データは、企業の価値の大部分を占めるものです。そのため、データはすべてのステークホルダーがアクセス可能かつ理解しやすいものである必要があります。
通常、データカタログはデータディクショナリーと用語集で構成されます。データディクショナリーはカタログ内のデータの意味、他のデータとの関係、出所、用途、形式など、すべてのメタデータ(通常はテーブル内に格納)を集めたものです。用語集は、カタログで使用されているビジネス用語を同定し、企業全体で統一された用語として使用できるようにするものです。
プロファイリング
データプロファイリングとは、データの完全性、正確性、整合性、鮮度を評価するプロセスです。基本的にデータプロファイリングは、ビジネス上の問題を解決するために、そのデータが有用かどうか判断するものです。これは、複数のデータソースからデータを収集して手元で活用したい場合、特に重要です。
データカタログ導入をご検討の方へ
データ解析とデータ統合のグローバルリーダーTIBCOのデータカタログソリューションについて、より詳細な情報をご希望の方は問い合わせフォームよりお問い合わせください。
NTTコム オンライン・マーケティング・ソリューション株式会社はTIBCOのジャパン・ディストリビューターです。