データ品質とは?
重要性から評価、改善方法を解説

データ品質とは、データがどれだけ正確に現実を表しているかを示す尺度です。 正確なデータは、正しい判断を導き、ビジネスの成功に繋がります。逆に、誤ったデータは、損失に繋がる可能性も。データはビジネスの基盤であり、その品質が成果を左右します。

データ品質とは?

データ品質とは、データの品質つまり「想定された目的に適合する程度」のことです。データが現実の状況を正確かつ一貫して反映していることが高品質なデータといえます。

データは情報の基礎です。データがその文脈や背景の中にはめこまれたものを情報と呼びます。実行可能なアクションに結びつく情報を知識と呼び、それが実際にアクションとして使われることを知恵と呼びます。低品質なデータは低品質な情報をもたらし、さらにはビジネス意思決定の品質低下につながります。

高品質データの必要条件は「想定された目的に適合し、現実の構造を表現している」ことですが、それで十分とは限りません。 例えば、ある会社の顧客マスターがあるとします。そのマスターはオンライン請求には十分かもしれませんが、顧客サービス部門にとっては、必要な住所や電話番号の情報が不足していて、使い物にならないかもしれません。これはシステムの問題に見えますが、実はビジネスの問題です。

理想的な顧客マスターは、顧客に関するすべての目的に適合したものになります。そのためには、想定されたすべての目的を網羅し、幅広い現実を表現することが必要です。一方、データ収集のための過剰なコストがかからないよう注意すべきです。データ品質管理とは高品質とコストのバランスです。

データの品質問題は主に精度であり、理由は人為的なミスによります。いったん発生してしまった低品質データの修正には時間と労力を要します。そのための人材や修正プロセス、そしてシステムの支援も必要です。人為的なミス以外に、部門間のコミュニケーション不足やデータ戦略の欠如なども低品質の原因となります。データ品質問題には、事後の対処よりも、プロアクティブな予防がより効果的です。

データ品質の重要性

一般論として、高品質なデータが最終的には利益に寄与することは間違いありません。しかし問題は、データ品質の責任は誰にあり、体制と予算をどう確保するのかということです。データ品質のビジネス影響を判断するには、データの詳細にわたって検証する必要があり、大きな困難があります。実際にデータ品質が劣化する状況とは、例えば以下のようなケースです。

  • マーケティング部門のデータベースに、ある潜在顧客が微妙に異なる名前で複数登録されているかも知れません。これは顧客体験を低下させたり、間違った顧客プロファイルを生み出したりする可能性があります。
  • オンライン販売部門における製品レコメンドにおいて、製品データが不完全だったり、製品パートナーからの製品データ情報の伝達に問題があったりすると、正しいレコメンドが困難になります。
  • サプライチェーンプロセスの自動化において、信頼できる位置情報を得ることは困難です。位置情報サービスによって、地図や基準、座標などの持ち方が異なることがあるからです。
  • 財務レポートを受け取る部門では、同じ事象に複数のレポートを受け取り、相互に内容が不一致であるかも知れません。データの単純な不整合もあれば更新時期の違い、分類軸の違いなどさまざまな原因があります。

それぞれがさまざまな業務や経営に影響を及ぼし、多岐にわたるビジネス目標の達成を困難にします。高品質なデータがない場合のビジネス影響は、たとえば以下のようなものです。

  • 新しい市場機会に乗り遅れる。これは利益や成長に悪影響を及ぼします。
  • コスト削減目標の未達。低品質データは、利用する前に多くの手作業による検査や修正が必要です。プロセスの自動化を行うための前提は、完全で整合性のあるデータが揃っていることです。
  • コンプライアンス違反のリスクがあります。高品質なデータがなければ、プライバシーや個人情報保護、健康や安全性の要件などの充足ができません。高品質なデータは、コンプライアンス遵守に不可欠なものです。
  • データを使って分析や予測を行うことが困難になります。短期的・長期的な意思決定すべての困難をもたらします。それらの困難の根本原因はデータの重複、不完全性、不一致、予測の不正確さなどデータ品質の問題です。

高品質なデータのメリット

高品質データの実現には投資を伴いますが、それを実行する企業は、よりデータを活用してより良いビジネス意思決定を行うことができます。

高品質なデータによる、より良い意思決定

今日の市場は消費者中心であるため、消費者に関する質の高いデータがあれば、企業はより適切な意思決定を行うことができます。例えば、データ分析の結果、金曜日よりも木曜日にショッピングや食事など外で過ごす時間が増えていることがわかると、企業は木曜日に営業時間を延長したりセールを実施したりして、顧客を誘致することができます。

より良いコラボレーション

複数の部門が高品質な同じデータに常にアクセスできる状態は、効果的なコミュニケーションに最適です。関連部門のメンバーが皆、プロジェクトの優先順位や発信すべきメッセージ、あるいはブランディングなどについて、同じ情報を同じように認識できている状態を実現できるからです。

よりよい顧客理解

高品質なデータによって、企業は顧客の興味や要求をよりよく理解でき、顧客のニーズに基づいたより良い製品を開発することができます。またさまざまなキャンペーンの展開においても、勘ではなく消費者の欲求や直接的なフィードバックなどのデータに基づいた確実性を期待できます。

データ品質をどのように評価するか?

低品質なデータは業務に影響を及ぼし、企業全体への損失につながると考えた場合、つぎに必要なのは、データオーナーやデータ管理者がデータ品質をどのように評価すべきかという評価方法です。評価方法には、データ品質評価のメトリクスや評価プロセスの構築などが含まれます。データ品質には、客観的な評価だけでなく、主観的な評価も必要です。データ品質を向上させるプロセスには、以下のことが必要です。

  • 客観・主観の両面からデータ品質メトリクス設定する
  • データ品質評価の結果を分析し、あるべき品質と現状との差異を分析する
  • データ品質の具体的な改善方法を検討する

主観によるデータ評価

主観的な評価とは、そのデータを収集したり分析したりといったデータ利用者によるデータ品質の評価です。受け取った部門がデータに基づいて意思決定を行い、それが不正確であったり不完全であったりした場合はデータ品質が低い事になります。データ品質を計測するには、データ利用者の観点も不可欠です。

客観によるデータ評価

客観的なデータ評価は、データセットに関して測定可能な指標を設定し評価します。以下の二つの観点があります。

  • 特定のタスクにおけるパフォーマンス
  • 単体のメトリクス

 客観によるデータ評価メトリクスは、特定のニーズに合わせたKPIの形をとります。主に以下の三つの種類があります。

  • 単純比率:合格したデータ件数を全件数で割った割合で、0から1までで表し、1が最高です。データの完全性や整合性などは、単純比率で測定することができます。単純比率以外にも測定方法はありますが、最適な方法を選択し維持することが重要です。
  • 最小値・最大値:許容範囲を表すのに適しています。データ精度の許容範囲などは最小値で表し、データ鮮度などの許容範囲は最大値で表されます。
  • 加重平均:さまざまな評価をもとに総合評価を行う場合に使用します。各データ品質指標を加重平均し、ビジネスへの影響を判断するために使われます。

客観的・主観的なデータ品質メトリクスを設定し評価したら、次は品質改善対策です。単に現行プロセスを見直し、品質目標を達成しろという掛け声だけではデータ品質は改善しません。実行可能で合目的的なアクションを完遂する必要があります。

データ品質の改善方法

データ品質の向上には適切な人材・プロセス・ITとその組合せが必要です。その上で組織のトップが積極的に関与することで、データ品質は本格的に改善していきます。

データ品質の対象

データ品質向上のポイントは、まず対象を明確にすることです。最も一般的な最初の着手対象は、顧客マスターの名寄せです。複数の顧客データが同じひとりの顧客である場合、データの重複を解決しなくてはなりません。そのための方法は複数あり、たとえば入力における重複チェックや、既存顧客マスターの名寄せチェックです。

製品マスターの場合、名寄せよりも大きな問題はデータの完全性・整合性です。製品カテゴリーが異なると製品マスター項目も異なり、すべての製品がすべてのマスター項目を満たせるとは限りません。また製品データの整合性は、例えばインチとセンチメートルなど単位が異なる場合に多く発生します。

場所マスターにおいては、世界共通の住所標準フォーマットがないことが大きな困難です。グローバルで入力を標準化することはほぼ不可能です。

複合マスターの問題

顧客と住所のマスターが複合すると、問題は一層複雑になります。顧客の名寄せと住所の整合をどちらも解決しなくてはならないためです。

製品と顧客のマスターについても同様です。顧客マスターと製品マスターの複合を実現するには、顧客ニーズを理解し、顧客に製品のどのような情報を共有すべきかを精査する必要があります。

6種類の主要なデータ品質基準

データ品質基準の基本は、以下の6種類です。プロジェクトにあわせてカスタマイズすることはありますが、ベースはこれら6つの品質基準です。

  1. 完全性:そのデータに必要な項目がすべて入っているかどうかです。たとえば顧客データに名前と住所は必要であり、空欄の場合は完全性に欠けると判定します。ただし、たとえば性別欄が必要であるかどうかは場合によります。不要と判断した場合、性別が空欄でも不完全だとは判断しません。
  2. 整合性:あらゆるレポートや分析・集計において、同じものを表すデータが同じであることです。不整合を発見したら原因を追求し解決します。整合性チェックのためのソフトウェアを利用する場合もあります。
  3. 正確性:データの値が現実と同じかどうかを表します。人手による登録が問題であれば、作業の自動化などが対策となります。
  4. データ型:型の統一はデータ品質の基礎です。年月日の並び順や大文字・小文字など細かいことであっても型の不一致は低品質の大きな原因です。
  5. データ鮮度:データが必要な鮮度かどうかです。ユーザーの業務によって要求鮮度には幅があり、最新であるかどうかだけでなく、適切なタイミングで意思決定者がデータを利用できるかどうかなどの基準があります。
  6. 適合性:企業や部門のルールや業界標準などに準拠しているかどうかです。データが不足し適合していないデータが低品質なデータです。

これらの基準を設置し遵守することで、データの高品質を達成し、高品質な意思決定に役立つデータを得ることができるようになります。

関連製品

  • TIBCO EBX
    マスターデータ管理(MDM)に必要なデータガバナンス、データマネジメント、名寄せなどの機能をオールインワンで実現するモデル駆動型ソリューション
    詳しく見る
Spotfire® 組織全体でのデータ分析・活用をオールインワンで実現するビジュアルアナリティクスツール 無料トライアル実施中
Spotfireの機能・使い方を動画で学べる Spotfire活用セミナー アーカイブ動画配信中 セミナー動画視聴はこちら
あ行
イーティーエル
(ETL)
異常検知
(Anomaly Detection)
か行
回帰分析
(Regression Analysis)
機械学習
(Machine Learning)
根本原因分析
(Root Cause Analysis)
さ行
散布図
(Scatter Chart)
製造アナリティクス
(Manufacturing Analytics)
た行
ダッシュボード
(Dashboard)
データ移行
(Data Migration)
データ仮想化
(Data Virtualization)
データカタログ
(Data Catalog)
データガバナンス
(Data Governance)
データクレンジング
(Data Cleansing)
データサイエンス
(Data Science)
データサイエンティスト
(Data Scientist)
データサイロ
(Data Silo)
データセキュリティ
(Data Security)
データ統合
(Data Integration)
データ品質
(Data Quality)
データファブリック
(Data Fabric)
データフェデレーション
(Data Federation)
データ分析
(Data Analytics)
データマネジメント
(Data Management)
データマネジメントプラットフォーム
(Data Management Platform)
データメッシュ
(Data Mesh)
データモデリング
(Data Modeling)
データリンキング
(Data Linking)
データレイク
(Data Lake)
テキストマイニング
(Text Mining)
デジタルツイン
(Digital Twin)
デブオプス
(DevOps)
は行
バッチ処理
(Batch Processing)
ビジネス用語集
(Business Glossary)
ビジュアルアナリティクス
(Visual Analytics)
分散分析
(Anova)
ま行
マスターデータ
(Master Data)
マスターデータ管理
(Master Data Management)
マルチドメインMDM
(Multi Domain MDM)
メタデータ管理
(Metadata Management)
ら行
リアルタイム分析
(Real-time Analytics)
リファレンスデータ
(Reference Data)
レーダーチャート
(Radar Chart)
レストフルエーピーアイ
(RESTful API)
ロジカルデータウェアハウス
(Logical Data Warehouse)
論理データモデル
(Logical Data Model)