2021/11/26
ここ数年「データカタログ」の話題を見かけることが多くなり、私たちもお問合せを頂く機会が増えつつあります。私たちはデータ仮想化ソリューションを提供していますが、こちらもデータカタログの一つの解となります。
今回はデータ仮想化によるデータカタログの実現とその限界についてのお話となります。そして最後にその限界をどのようにして乗り越えるのかについてもお話します。
データカタログには大きく二種類あります。一つはエンベッドデータカタログ、もう一つはスタンドアロンデータカタログです。エンベッドデータカタログというのは、データレイクやデータ統合などの製品に付属するデータカタログ機能です。データレイクは自分が格納しているデータを把握し、データ統合はデータ連携相手のデータを把握しています。ここで把握というのはデータの中身そのものではなく、データベース名やファイル名、テーブル名、項目名や型などの「メタデータ」情報です。保持しているメタデータをユーザーに開示したものが「エンベッドデータカタログ」です。
私たちが提供しているデータ仮想化ソリューションのTIBCO Data Virtualization(TDV)には、エンベッドデータカタログ機能があります。データレイクでいえばApache Atlasがあり、データプレパレーションツールやBIツールにもデータカタログ機能を持つものがあります。
もう一方の「スタンドアロンデータカタログ」というのは、つまり全データの一覧です。色々なエンベッドデータカタログのメタデータを集め、データモデリングツールからデータベース情報をインポートし、残りはシステム設計書を見て手で打ち込みます。全社データを網羅し、標準化し体系的に整理し、データの持ち方を改善していくまでが「スタンドアロンデータカタログ」です。その意味で、スタンドアロンデータカタログは全社メタデータ管理とほぼ等しいものです。 スタンドアロンデータカタログによって、システム構築や改修の際のデータ調査に何ヶ月もかける必要がなくなります。M&Aにおけるデータ統合も桁違いに早くなります。お互いのデータカタログをすり合わせればよいからです。
しかし、現在データカタログに最も期待されている用途は機械学習・データサイエンスです。この用途におけるデータの特徴は、毎回異なるデータが利用されることです。往々にして、新たなデータソースが必要な場合もあります。データを人伝で探し、データベースの素性を調べ項目の意味を調べ、データをもらって目視チェックして確認し…、それでも足りないこともあります。そもそもデータが存在しないという場合もあります。そしてデータが存在しないことを理解するためには全てのデータの探索が必要です。これは非常に大変です。
例えば、「北米の売上情報、できれば顧客情報付き」を求めているとしましょう。しかしデータの管理者にはデータベース名しか通じません。このギャップを埋めるのがデータカタログです。データカタログでデータを見つけることができれば、話はだいぶ簡単になりますし、「該当データが存在しない」ことも容易に判明します。
データカタログによってデータの在処やデータ型が把握できれば、データの取得や変換を自動化することができます。これをデータパイプラインと呼びます。AI用途ならばAIパイプライン、機械学習ならMLパイプラインと呼んだりします。先ほどデータカタログに最も期待される役割が機械学習・データサイエンスであると述べましたが、まさにこのデータパイプラインこそがデータカタログに最も期待される用途なのです。
そのためのデータカタログの二大機能が「データに注釈を付ける機能」と「データを検索する機能」です。データリネージュ、ディスカバリー、AIなど、細かく言えばたくさん機能がありますが、結局は二大機能に含まれます。機能の充実度に差があっても、二大機能があればシステム的には十分だと言えるでしょう。
ここまで、データカタログの用途と必要機能についてお話しました。しかし、ここで安心してしまうとデータカタログは失敗します。というのもデータマネジメントにデータスチュワードが必要なように、データカタログにはキュレーションが必要だからです。ここはIT部門が見落としやすい落とし穴です。日本ではまだ構想中のケースが大半なので目立ちませんが、かつて色々なシステムが通った道です。
以下が失敗例です。
・ワークフローを作ったが煩雑なため、Eメールで連絡を回し、後付けでワークフロー入力するようになってしまった…
・精緻な計画システムを作ったが、膨大なパラメーターを嫌ったユーザーがExcelに戻ってしまった…
つまり、誰かが先頭に立って運用の維持と改善を行わなければデータカタログは立ち消えてしまうのです。この運用改善に当たる業務がキュレーションです。キュレーションとは「データを探し出して理解し、標準化された適切な注釈をつけ、必要とあればデータの質問に答え、改善要望を受け、蓄積したナレッジを使ってデータを検索しやすいよう並びや名称や体系化を整備すること」です。恐竜の化石にたとえると、発掘するのは考古学者ですが、その後はすべてキュレーションです。化石を集めてラベルをつけて整理して、恐竜を組み立てて説明パネルを書いて展示する。これらの全部がキュレーションです。学者にとっては、恐竜の名前や骨の名前がラテン語の学名で書かれていれば十分です。しかし、博物館の訪問者が見て理解できるのは、フロアマップや展示パネルまでです。ユーザーに理解できるようデータを整備することで付加価値をつけるのがキュレーションの役割です。
例えば、どこかに"SALES"というデータがあったとします。しかしそれだけでは正体不明です。「売上データ」という説明にも意味がありません。そのくらいの英語なら説明されなくても分かります。大事なのは「どの地域の、どの営業の、いつからいつまでの、どの製品のデータなのか?」「売上とは出荷ベースなのか入荷ベースなのか?それとも検収ベースなのか? 」こういった、業務レベル(セマンティックレイヤー)のメタデータが揃っていないと、危なくて使えません。データの信頼性(trust)が不足しています。
では、そのメタデータは誰が調べるのか。IT部門がそんな事を言われても困ります。必要なITスキルすら見当がつきません。java? SQL?業務部門も困ります。画面項目は知っていても、どのデータベース項目かなど知りません。両者がそれを当然と言うならば、データカタログも失敗するのが当然ということです。困りました。
それを解決するのがCDO(Chief Digital OfficerあるいはChief Data Officer)です。デジタルオフィサーでもデータオフィサーでもかまいません。業務でもないシステムでもない、データとしか言いようのない領域を整備し改善する仕事です。CDOは組織的にキュレーションを実施し、メタデータを整備します。そしてデータパイプラインを完成させ、圧倒的なスピードでデータを次々に分析しインサイトを提供するのです。
ここまでセットでないと、データカタログは途中で尻切れトンボになります。過去に塩漬けになったさまざまなシステムと同じ運命が待っています。
データカタログを検討中の方には、ぜひ「キュレーション」をどうするか考えて頂きたいと思います。私たちNTTコム オンライン・マーケティング・ソリューションではソリューションもノウハウも提供できますが、キュレーターだけは社内に必要です。