データモデリングとは?
ERモデルなどの手法とメリットを解説
データモデリングとは、企業が持つデータを整理し、分析しやすい構造にすることで、より良い意思決定を可能にする設計図を作成することです。データの宝庫を有効活用し、ビジネス成長に貢献します。
データモデリングとは?
データモデリングとは、情報システムを構成するデータを整理し、人がそのデータの意味を理解しながら検証していくプロセスです。具体的には、データの構造、関係、特性を定義し、それらを可視化します。これにより、データベースの設計やビジネスプロセスの改善など、さまざまな目的を達成できます。
別の表現では、データモデリングとはビジネスからデータへの要求に対して定義と分析を行うということです。 企業の各部門はそれぞれ異なる領域を担当し、そこに最適化された情報をシステムで管理しています。そうした複雑な環境で業務をサポートするためには、データモデリングが欠かせません。そのためデータモデリングの実施においては、さまざまな意思決定を行う主幹部門および関係部門が一体となって参加する必要があります。
データモデリングの手法
データモデリングは大きく6種類あります。ER(エンティティ-リレーションシップ)モデル・階層型モデル・ネットワークモデル・リレーショナルモデル・オブジェクト指向モデル・オブジェクト-リレーショナルモデルです。それぞれモデルごとの用途があり、目の前のニーズに応じて選択します。
ER (エンティティ-リレーションシップ)モデル
ER (エンティティ-リレーションシップ)モデルは、現実のものごとや出来事を意味する「エンティティ(実体)」およびエンティティ間の「リレーションシップ (関係)」を定義し、現実のものごとや出来事の関係を反映します。たとえば、船員はエンティティであり、船員の勤務時間は船員というエンティティの属性と見なします。船員というエンティティと勤務時間という属性の関係を定義するのがERモデルです。
階層型モデル
階層型モデルは、データ相互の関連を木構造として表現します。データは一本の根本(ルート)から段階的に枝分かれしていき、末端に行くほど細分化・詳細化していきます。たとえばルートが「病院」という単一のデータだとすると、そこから心臓外科や、がん科、整形外科、産婦人科、歯科などさまざまな診療科へと細分化していきます。
ネットワークモデル
ネットワークモデルは、「ノード」およびノード間の連結でデータを定義します。ネットワークモデルはグラフモデルともいい、連携された一方が「子」ノード、もう一方がその所有者である「親」ノードと呼ばれます。
リレーショナルモデル
リレーショナルモデルでは、データをテーブルとして扱い、行と列でデータを管理します。テーブル間の関係が、そのまま異なるエンティティ間の関係を意味します。
オブジェクト指向モデル
オブジェクト指向モデルは、事物の定義をクラスで行い、個々の事象をオブジェクトとして扱います。エンジニアリングおよび建築における3Dモデルがその典型です。たとえば、建築の3DCADは、建物の設計から建築プロセスまでをモデリングし管理します。
オブジェクト - リレーショナルモデル
オブジェクト-リレーショナルモデルは、オブジェクトとリレーショナルの2つを組合せて1つにしたものです。リレーショナルモデルの使いやすさと、オブジェクト指向モデルの高機能が組み合わされています。
企業におけるデータモデリングの価値とは?
データモデリングのビジネスニーズは3種類です。
- 経営目標 : 市場シェアの向上や利益改善などの目的を達成するために設定した個々の目標のことです。
- 業務要求: 日々の業務を最適化するために必要な支援のことです。予算や人材などが該当します。
- 問題解決 : 経営目標に対する阻害要因です。たとえばストライキが発生することで収益のトータルは減少します。
データモデリングは3つのうち、どのビジネスニーズに対しても有効です。また、データモデリングそのものにも3つの種類があります。概念データモデル、論理データモデル、物理データモデルです。
概念データモデル
概念データモデルは業務上の概念 (具体的なモノゴトを抽象化して考える)および概念の相互関係をデータベース的なルールで表現したものです。概念データモデルは3つの要素でできています。
一つ目の要素は「エンティティ」です。エンティティは、現実世界に存在するものごとや出来事などで、たとえば、「病院」や「患者」などです。「病院」や「患者」はいずれも現実世界には複数存在しているように、エンティティは集合も表します。
二つ目の要素は「識別子」です。複数存在する「病院」の中から、特定の病院を識別するための項目です。たとえば病院名や住所です。
三つ目の要素は「リレーションシップ」です。ある病院の患者であることをデータで表現します。患者のデータに病院名を入れたり、ある病院の患者リストに患者の氏名を登録したりします。
論理データモデル
論理データモデルは、データベースとして実装できるようモデルを落とし込んだものです。型や桁数のルールなどのシステム的パラメータにデータ構造が追加されます。論理データモデルは明確な属性や構造、そしてリレーションシップが定義されています。
例えば、オンラインの香水販売業者が、次の12か月以内に10万人の顧客を獲得することを目標としているとします。そのデータモデルには香水、顧客タイプ、マスメディアやソーシャルメディアなどの媒体など、顧客とマーケティングに関する概念が含まれ、同時に相互のリレーションシップを定義していきます。
物理データモデル
物理データモデルの目的は、実際のデータベースシステムを構築することです。リレーショナルデータベースと相性がよく、そのためのスキーマやリレーションシップ、主キーと外部キーなどを具体的に定義します。
また物理データモデルには、パフォーマンスなど物理的な実装のための機能も含まれます。物理データモデルは、概念および論理データモデルを元に作成されます。
データモデリングの用途
データモデリングの用途は、究極的には企業の競争力を高めることです。たとえば競合と同じセグメントを狙っている場合、マーケティングで収集できるデータも似たりよったりです。であれば、成功の鍵は収集したデータをいかに解釈し、意思決定に活用するか次第といえます。データモデリングは業務部門リーダーが施策を企画・実施するに当たって他部門と連携する際、検討すべきルールや用語を誤解なくコミュニケーションするために必須です。部門ごとに独自用語や独自解釈があると、意思疎通できなかったり、誤解を残したまま施策の実施をしたりするおそれがあるからです。
データモデリングのメリット
データモデリングのメリットには、次のようなものがあります。
エラーの低減
データモデリングによって、より多くの種類のデータを、より体系的に整理された形で明文化できます。その結果、データで扱える範囲が拡大し、システム化および業務の自動化が容易になります。自動化の効用は速度とミスの減少です。
コンプライアンスの改善
データモデリングは、法令や規制に対するコンプライアンス改善にも寄与します。すべてのデータが一元管理され、容易にアクセスできれば、新たな法令や規制が社内の何と関連しているか、コンプライアンスが遵守できているかを直ちに判断することができます。企業は属する国や業界のさまざまな規制を把握するだけでなく、社内のデータモデリングを整備しておく必要もあるということです。
意思決定の改善
データモデリングによって、業務部門ではより良い意思決定を行うことができます。各種の情報がデータモデルに沿って整理されることで、データに内在する抜け漏れやトレンドなどを発見することが容易になります。こうして業務部門では、正しいデータの示す正しい分析結果を得ることができ、より最適化された意思決定をすることが可能になります。
より効果的なBI (ビジネスインテリジェンス)
データモデリングは、BI(ビジネスインテリジェンス)にも効果があります。整理された各種の属性に基づいて、より効果的にデータを分類・分析できるようになることで、データドリブンな意思決定や商機獲得が可能になります。たとえば、スーパーマーケットには膨大な商品の品揃えがありますが、あるブランドやある種類の商品が急に売れだしたり、似たような別の種類の商品の売れ行きが低下していることに素早く気付くことができます。直ちに売れ線の仕入れを増強し、売れ行きの落ちている商品の仕入れを削減することで、在庫を押さえつつ売上を伸長させることが容易になります。
データモデリングの課題
データモデリングの課題は正確性です。分析の観点が現実世界を反映しており、現状の分析プロセスや分析ツールが正しい結果を提示できるようになるためには、正確性が重要です。データモデリングにおいて関連性の高いデータや低いデータが混在してしまうと、分析における分類の精度が悪くなり、データ分析で誤った結論を導くおそれがあります。
データセキュリティも課題です。データモデリングの調査対象がマルウェアによって毀損・歪曲されてしまっていると、再度データを取得して分析しなくてはなりません。データモデリングには、調査するインプットデータの正確性と、アウトプットされるデータモデル正確性の二つの課題があります。
データモデリングにおける課題の解決
データモデリングは、これらの課題に対処する方法も備えています。 不正確なデータは、次工程の分析を行う前に集中的なデータクレンジングを行うことで大幅に精度を向上させることができます。データのクレンジングを行うと同時に、クレンジング不可能なデータを削除することで、調査すべきデータの品質を担保します。
データセキュリティについては、セキュリティプロトコルの追加によって軽減する必要があります。たとえば、ウイルス対策ソフトウェアをより多頻度に更新したり、セキュリティ専門家の助言を受けるたりするなどです。入念なデータクレンジングとセキュリティ強化によって、多くのデータモデリングにおける課題が解決されます。
データモデリングの未来
各種のデータの構造化手法には、類似点と相違点があります。オブジェクト指向モデルとリレーショナルモデルは、どちらも直感的な把握に優れています。異なるエンティティ同士の関係や類似点がグループ化されており、データに内在する意味を人間が把握しやすくなっています。
ERモデル、階層型モデル、ネットワークモデル、リレーショナルモデル、オブジェクトモデル、オブジェクト-リレーショナルモデルにおけるすべての共通点は、異なるエンティティ間の相互関係を表現できることです。それによってユーザーは、データ同士の関係を特定するための情報を得ることができます。 それぞれのデータモデリングの違いは、主にデータの表現形式です。たとえばエンティティ間の関係について、階層型データモデルではノードで表し、リレーショナルモデルではテーブルで表します。表現形式に応じてデータモデリングのテクニックも異なります。
いずれにせよ、ビジネス要求を十分に満たすためにデータモデリングの早期実施は有効です。
現在、ソーシャルメディアやIoTによって、データの収集そのものは格段に容易になっています。データもデータソースも増大する中で、業務オペレーションおよびビジネス分析に必要なデータを、人が完全に理解できるように可視化するためには、これまで以上にデータモデリングを重視しなければならないといえます。