データ統合とは?
生産性・品質・価値向上による競争力
データ統合は、異なるシステムのデータを一元化し、新たな価値を生み出す技術です。データの断片化を解消し、分析を容易にすることで、より的確な意思決定をサポートします。企業のデジタル変革を加速させ、競争優位性を確立するための基盤となります。
データ統合とは?
データ統合とは、異なるソースからデータを取得し、統一されたビューとしてユーザーに提供するプロセスです。データ統合の目的は、データを活用するシステムとユーザーにとってデータをより自由に・利用しやすくすることです。正しいデータ統合とは、既存のアプリケーションやデータ構造への変更を最小化し、ITコストやリソースを削減し、データ品質を改善し、イノベーションを促進するものです。昔からデータ統合のニーズは常にありましたが、現在はその効用がかつてなく大きなものとなっています。
データ統合に強い企業は、強い競争力を持つことができます。
- 最小限の手動データ変換による生産性向上
- 自動化によるオペミス撲滅を通じたデータ品質向上
- 豊富なデータ・容易な分析を通じたデータ価値向上
デジタルビジネスの基盤はデータとプロセス処理の二本柱です。その結果、いつでも誰でも自在に情報資産にアクセスできることがデータ価値への原動力となります。データは全社のITを縦横無尽に、セキュリティを確保しながら流れていき、流れる情報はデータ統合によってひとつのものとなります。すべてのデータは常に分析に使う準備が完了した状態にあります。
データ統合の進化
データ統合の範囲や重点は大きく変化してきました。現代のデータ統合は主にSaaSが使われます。SaaSであってもオンプレミス同様、カスタム開発が入るのは従来と変わりません。また社内情報を社内で活用する以外の用途として、取引先への情報サービスとして公開することも重視されるようになりました。そのため企業では、SaaS・手組みシステム・取引先システムなどさまざまなシステムのデータを統合することがとても重要です。さらに現代的な企業では差別化のため、自社のシステムをさまざまに組み合わせます。たとえばデータベースにある静的なデータだけでなく、リアルタイムで動的なストリーミングデータも組合せて分析し、動的に戦術を切り替えることで、顧客や取引先からのリアルタイム要求に応えられる仕組みを構築し、イノベーションを実現しています。その目的は優れたユーザーエクスペリエンスを通じた社外ユーザー退会防止や社内業務効率の改善です。
データ統合はどのように機能するのか?
企業はデータによって経営環境を正しく解明するためにさまざまな種類のデータを取得し、レポーティングやオペレーションに活用しています。それによって社員と顧客の両者がデータから価値を抽出することができます。
しかし実際のデータは、オンプレミス、クラウド、IoTデバイス、サードパーティなどに分散し、またアプリケーション、データベースなど種類もさまざまです。企業は必要なデータを一つのデータベースに格納することはできなくなりました。また従来のマスターデータやトランザクションデータなどの構造化データだけでなく非構造化データも必要であり、テキストファイルやWebサービスなども含まれるようになりました。
従来のデータ統合は物理的な方式です。具体的には、データを元システムからステージングエリアにコピーし、次にクレンジング、マッピング、データ変換を施し、最終的にデータウェアハウスなどの物理データベースに書き込みます。典型的な方法はETLです。ソースシステムからデータを物理的に抽出(Extract)し、別の形式のデータに変換(Transform)し、ターゲットシステムにロード(Load)する機能であることからETLと呼ばれます。
データ統合にはもう一つ、データ仮想化という方式があります。あらかじめ「仮想化レイヤー」上に「仮想ビュー」を定義しておくことで、実際にデータを参照する際は仮想化レイヤーが元システムのデータベースにアクセスし、そこにあるデータを参照します。このときデータは参照されるだけで、物理的にデータをコピーしません。
シンプルな統合を向上させるための考察
データ統合システムの価値は、手作業を脱することによるコスト削減です。また手組みプログラムからベンダーの統合ツールへの切り替えが推奨されます。理由はデータの高品質化、パフォーマンス高速化、導入期間の短縮が期待できるためです。
さらに付加価値を生むような目標をロードマップに追加することも可能です。
開発を効率化する
非機能面に優れたツールであることが重要です。ログ、リトライなど運用プロセスの整理と再利用や、ツール上で構築した統合ロジックをリアルタイムでテストできる環境は、実装と運用の工数と期間を最小化します。
自動設定
さまざまなアプリケーションやシステムとの接続設定は、変更があれば直ちに反映する必要があります。その際、正しい連携先に正しく接続していることの確認や、開発環境から検証・QA・本番環境それぞれと同期を取った設定変更の反映が必要です。しかし実際は、開発環境(IDE)上で構成パラメータを手動変更している場合が多数あります。手動変更は高コストであるばかりでなく、変更してはいけない部分が変更されてしまうおそれもあります。本来そういう設定はスクリプトやロジックによって自動設定すべきです。設定の自動化はプロジェクト全体の期間短縮にもつながります。
テスト
テストは、データ統合の開発における最重要部分です。統合ロジックは、開発後ただちに検証することが望ましいのですが、実際はリリース遅延を嫌って直接デプロイされる場合が多くあります。高速なデバッグを可能にする開発環境があると、データ統合の開発を大幅に短縮します。ミッションクリティカルなデータ統合プロセスの場合は、本番環境と同等の検証環境でテストを行って新機能の検証が必要で、そのための追加テストシナリオや、検証用プログラムなども必要となり開発期間もコストも膨らみます。これらの問題はテスト用のAPIを用意してテストデータやテストシナリオを登録したり、専門の統合テストソリューションを使用したりすることで、プロジェクト期間を大幅に短縮できます。
共通のデータモデルを確立する
テクノロジー以外にも、共通のデータモデルを構築することは今後のデータ統合開発を効率化します。どのデータ統合プロセスも同じ「言葉」を話すようになるためです。また共通のデータモデルがあることで、業務プロセスを支援するサービスやイベントを簡単に作成できたり、イベントから業務プロセスを起動したりすることが容易になったり、ビジネスの可視性を向上させたりすることができます。
レガシーシステムの活用
多くのレガシーシステムは基幹業務を担っており、他のさまざまなシステムと連携する重要なデータを持っています。データ統合を使うことで、それらの重要なデータを他のモダンなシステムへと取り込むことができます。またデータ統合は、そうしたデータを集約して作成されたレポート上で、完全で統一されたデータのビューを提供します。データ統合の真の威力は、一度データを入力するだけで何度でも再利用できるようになることです。たとえば、受注情報を関連するシステムごとに入力する代わりに、どこかで1回入力すれば、あとはシステム間でデータを自動で受け渡しできるようになることです。これがデータ統合の価値です。