2021/03/05

データの伝言ゲームをやめて、データ品質を向上させよう

伝言ゲームの思い出

子ども時代に友人と伝言ゲームをした経験はありませんか?

一列に並んで最初の人から2番目の人へ、2番目の人から3番目の人へと伝言を繰り返し、最後の人が最初の人に伝言を伝えるゲームです。「太陽は空にある(The sun is in the sky)」から始まった言葉が、友人から友人へと伝達されるにつれ、どういうわけか「パイを食べるのは楽しい(It is fun to eat pie)」に変化していく様子はとても面白く、楽しいことでした。

その後、各メンバーが伝達した伝言を共有すると、さらに笑いが広がり、どこで言葉が変わっていったのかをを全員が知ることになるのです。"

データの伝言ゲーム

興味深いことに、企業のデータ管理は過去30年にわたって伝言ゲーム方式を採用しており、データベース間でデータをコピーし、データの一時停止を伴いながらデータを移動させています。

一例として典型的なエンタープライズデータウェアハウスの処理プロセスを挙げてみます。

  • データはトランザクションシステムのデータベースに保存されたトランザクションレコードとして生み出されます。
  • 次にソースシステムからステージングデータベースにコピーします。
  • その後、ステージングデータベースからデータウェアハウスにコピーします。
  • そのデータの一部が結合・加工されてさらにその先のデータマートにコピーされます。
  • そしてその多くがExcelファイルの形でPCに提供され保存されます。

次にクラウドデータレイクの凡例を挙げてみます。

  • デバイスからのソースデータがエッジデータベースに統合されます。
  • このエッジデータは、分析のためにクラウド上のデータレイクにコピーされます。
  • トランザクションシステムからの追加のデータもデータレイクに追加される可能性があります。
  • 履歴情報を加えるために、データウェアハウスのデータをデータレイクにコピーすることもあります。

概念的には、これらのデータ管理のベストプラクティスは、さまざまなステップにおいて付加価値を付与され変換されるため、データ品質を向上させる機会となります。

しかし、一連のプロセスにおいて非常に多くのステップを介するため、データの「伝言ゲーム」は、しばしば、うっかり 伝言ゲームの最中で「空(Sky)」 が 「パイ(Pie)」になってしまったように「あり得ないデータ」を生んでしまいます。このデータ品質の問題によるビジネスへの影響は、伝言ゲームで遊んだ頃のくすくす笑いでは済まされません。

データコピーの繰り返しによって発生する問題の影響度

世の中ではどれくらいの量のデータがコピーされているのでしょうか。IDCは“ Worldwide Global DataSphere Forecast 2019-2023 ”(英語) の中で、新規データが1テラバイト生成されるごとに、レプリケーションとディストリビューションによって、6テラバイト以上のコピーデータが生成されると予測しています。 伝言ゲームによって「あり得ないデータ」に変化してしまう可能性は大量に存在するのです。

データの伝言ゲームをやめさせる3つの方法

IDCの数字は、データの伝言ゲームを無くし、データ品質を向上させるアプローチを試みることを示唆しています。ここでは、企業が検討すべき3つの方法を紹介します。

1. データ仮想化を導入し、データコピーを削減

データ仮想化は、データを物理的にコピーすることなく統合することができる実証済みの手法です。これにより、一般的なマルチコピー、データウェアハウス、データレイクの導入によって発生する変換エラーと品質低下が大幅に削減されます。
データ仮想化は、データコピーの数を減らすだけでなく、メタデータ駆動型のシンタックスおよびセマンティクスな変換と、データセットの標準化による再利用の促進によって、データ品質を向上させます。
また、状況の変化に対応する場合 、分散された複数のETLおよびデータベースのスキーマを変更するよりも、一元管理されたメタデータ定義を変更する方がはるかに容易です。

2. リファレンスデータ管理(英語)を全体で共有

リファレンスデータ管理を行うことで、組織がシステムやビジネスライン全体で標準的な分類および階層を一貫して管理できるようなり、データ品質を向上させます。
これにより、余分なコピーデータを生成することなく、データの一貫性およびコンプライアンスの担保を実現できます。
また、データディストリビューションの方法としてデータの仮想化を追加し、リファレンスデータを1つの仮想的な場所に保持しておくことで、容易な共有と再利用が可能になります。

3. データベーステクノロジーではなくデータドメインを考慮する

今日では各用途に適したデータベーステクノロジーが多数存在しています。しかし、「新しく刺激的なもの」が必ずしも「高いビジネスバリュー」に繋がるわけではありません。代わりに最も価値のあるデータドメインについて考えてみましょう。
たとえば、顧客からの評価が自社の競争優位性である場合は、顧客データドメイン内の品質向上に重点を置きます。
マスターデータマネジメントは成功の鍵であり、顧客、従業員、製品などの選択されたデータドメイン内にあるデータ整合性を保つことができます。

データの伝言ゲームをやめましょう

伝言ゲームは子供たちに任せましょう。代わりに、TIBCOのデータ統合関連製品で上記の3つの方法を実行し、データ品質を改善しましょう。

Bob Eve

Robert (Bob) Eveは、TIBCO Softwareのデータマネジメント・ソートリーダーシップ担当シニアディレクターです。本ブログは2020年10月2日の Bob Eveによる“To Improve Data Quality, Stop Playing the Data Telephone Game”の日本語翻訳です。
原文(英語)はこちらをご覧ください。

データ統合 】コラム一覧に戻る
全コラム一覧に戻る