2022/03/15

データ仮想化はデータファブリックのフロントランナー

業務フローとデータの直列利用

昨年あたりから「データファブリック」という言葉を頻繁に見かけるようになりました。
「またバズワードか」とウンザリしている方がいるかも知れませんが、バズワードといえど少なくとも一つはイイ事を言っているものです。
データファブリックの「イイ事」を知って頂く。これが今回のテーマです。

ビッグデータと言われて15年。大量のデータが至る所に生まれるようになりました。
3つのVと言われていたものが、5つになり10になり、今や42のVまであります。
(註 : Vagueness, Validity, Valor, Value, Vane, Vanilla, Vantage, Variability, Variety, Varifocal, Varmint, Varnish, Vastness, Vaticination, Vault, Veer, Veil, Velocity, Venue, Veracity, Verdict, Versed, Version Control, Vet, Vexed, Viability, Vibrant, Victual, Viral, Virtuosity, Viscosity, Visibility, Visualization, Vivify, Vocabulary, Vogue, Voice, Volatility, Volume, Voodoo, Voyage, Vulpine)

42個もあるVは覚えきれませんが、メッセージだけは伝わってきます。「烏合の衆」という言葉もあるように、データを持っているだけでは、いくら多くても真価を発揮できません。データを手元に引寄せ、加工し、インサイトを得て、アクションを起こし、価値に変える全行程に注意すべきだということです。

その上でさらに、データ活用からはスピードだけでなくアジャイルであることが要求されます。実装に半年かかるのは、アジャイルではありません。驚異の検索スピードも、それでは価値を失ってしまいます。

アジャイルなデータ活用のためのアーキテクチャ、それが「データファブリック」です。データ連携を糸とすると、複雑な連携がネットワークで、満遍なくカバーするほどの「布」がファブリックです。

データファブリックが望まれる理由

データファブリックとは出来合いの製品ではなく考え方・業務改革と製品の組合せです。テクノロジーよりもむしろ人間系、組織やプロセスが重要なのです。

ITはその発展につれ、関心がハードウェアから人間へ近づいて行きます。メインフレーム時代はハードウェア中心、オープン化以後はソフトウェアです。今現在、学校で行われているのはプログラミング教育であって、DRAMの仕組みなどはやりません。

しかし最先端のトレンドはデータです。ソフトウェアからデータへと移ってきています。昨今のデータ処理プログラムとはライブラリの活用であり、イチから書くことは滅多にありません。そして業務部門やデータサイエンティストの要求もデータです。つまり「これこれのデータをくれ。データはあるんだろう？」です。

ただデータが存在だけでは使えることを意味しません。有無をしらべ有り場所を探し、意味を調べ中身をチェックしデータ連携を構築します。しかしそれには時間とコストがかかり、要求に応えられない。それが現在のIT共通の悩みです。

データファブリックの考え方は「減点法」

悩みの原因は「考え方」にありました。それはソフトウェア中心の考え方です。データの有り場所どころか、あるかどうかも分からないのに、処理をどう作るかを真っ先に考えてしまいます。
それも当然、ソフトウェアは資産なので「積み上げ」指向で考えるからです。減価償却もします。

それに対して、データファブリックは減点法、マイナス指向の考え方を提示します。根本にあるのは、データのサプライチェーンです。データは形を変え、組み合わされ、場所を移動し最終的に消費されて価値を生みます。「チェーン」だけに、途中で一箇所切れるだけでも価値は生まれません。一箇所で遅れれば、そのまま全体の遅れにつながります。サプライチェーンの改善とは、途切れたところ、遅いところを減点法で見つけて直すことです。

それを支えるのが、強力なデータインテグレーション基盤です。一つ一つのデータ連携ではなく、いろいろなデータ連携を一手に担うパワーを持ちます。データファブリックにつらなるデータ連携として、最も注目されているのがデータ仮想化です。

データ仮想化とデータファブリック

ビッグデータの立役者のひとつがデータレイクです。データの蓄積が容易で高速・大容量を実現する「量」の技術です。問題は、データを取出した後です。データレイクは届けることまでは面倒を見てくれません。

データファブリックの観点は「では、どうデータインテグレーションすれば届くのか？」です。そして現在、有望視されているのがデータ仮想化です。データ仮想化は、高速・リアルタイムにデータを流通させ、仮想データベースがそこにあるかのように（仮想化）見せます。自分ではデータを持たず、他のデータベースやファイルからデータを吸い上げ、ビュー（View）を作成します。データレイクやデータウェアハウスにデータをで蓄積し、データ仮想化で一気にデータ流通を加速させるのです。

そうすると、数多あるデータレイクやRDBMS、ローカルファイルも、すべて含めた「データベース」に見えるわけです。実際には、仮想の「データベース」や「データウェアハウス」それに「データマート」がいくらでも作成できます。(実際は単純に取りに行くだけではなく、最適化実行計画やキャッシュなど様々なテクノロジーに支えています)

また、データ仮想化は、連携するすべてのテーブルやファイル、項目をすべて把握しています。リポジトリに保管します。タグをつけ、別名を付与し、説明文をつけることで、データ探しの手間を大幅に短縮します。これが、データファブリックにデータ仮想化が適しているもう一つの理由であるデータカタログ機能です。単なるカタログではない、通販やeコマースのデータカタログです。

データ仮想化はデータ連携をすでに持っています。あとは選ぶだけで、データを容易に取得できるためです。なおユーザーの権限次第で、データを選んでも見せない制御が働いています。個人情報や部外秘情報などです。

こうした基盤を駆使することで、データファブリックを実現していきます。ビジネス側では、手元で使えるわずかなデータに囚われる必要はありません。全社のデータを（権限の範囲で）自由に使える前提で、新しいビジネスや新しいデータ活用に専念できます。

これが、データファブリックの最先端にいるのがデータ仮想化であるという主張となります。

TIBCOのデータ仮想化ソリューション TIBCO Data Virtualization（TDV）は、貴社のデータファブリックを強力に推進します。

NTTコムオンライン・マーケティング・ソリューション株式会社
エバンジェリスト
水谷哲

大手メーカー、外資系企業にて生産管理に従事。需要予測・需給計画・スケジューリング・MES全般に携わる中、データモデリングをきっかけにマスターデータ管理（MDM）と出会い、複数のMDMプロジェクトの推進に取り組む。
現在は、NTTコムオンラインにてTIBCOのエバンジェリスト活動に従事しながら、日本データマネジメント・コンソーシアム（JDMC）の研究員やMDM研究会リーダを務め、各種セミナー等で講演。

データ連携の直列と並列の話（CONNECTとUNIFY）

やさしいMDM（マスターデータ管理）のすすめ