2022/03/15
昨年あたりから「データファブリック」という言葉を頻繁に見かけるようになりました。
「またバズワードか」とウンザリしている方がいるかも知れませんが、バズワードといえど少なくとも一つはイイ事を言っているものです。
データファブリックの「イイ事」を知って頂く。これが今回のテーマです。
ビッグデータと言われて15年。大量のデータが至る所に生まれるようになりました。
3つのVと言われていたものが、5つになり10になり、今や42のVまであります。
(註 : Vagueness, Validity, Valor, Value, Vane, Vanilla, Vantage, Variability, Variety, Varifocal, Varmint, Varnish, Vastness, Vaticination, Vault, Veer, Veil, Velocity, Venue, Veracity, Verdict, Versed, Version Control, Vet, Vexed, Viability, Vibrant, Victual, Viral, Virtuosity, Viscosity, Visibility, Visualization, Vivify, Vocabulary, Vogue, Voice, Volatility, Volume, Voodoo, Voyage, Vulpine)
42個もあるVは覚えきれませんが、メッセージだけは伝わってきます。「烏合の衆」という言葉もあるように、データを持っているだけでは、いくら多くても真価を発揮できません。データを手元に引寄せ、加工し、インサイトを得て、アクションを起こし、価値に変える全行程に注意すべきだということです。
その上でさらに、データ活用からはスピードだけでなくアジャイルであることが要求されます。実装に半年かかるのは、アジャイルではありません。驚異の検索スピードも、それでは価値を失ってしまいます。
アジャイルなデータ活用のためのアーキテクチャ、それが「データファブリック」です。データ連携を糸とすると、複雑な連携がネットワークで、満遍なくカバーするほどの「布」がファブリックです。
データファブリックとは出来合いの製品ではなく考え方・業務改革と製品の組合せです。テクノロジーよりもむしろ人間系、組織やプロセスが重要なのです。
ITはその発展につれ、関心がハードウェアから人間へ近づいて行きます。メインフレーム時代はハードウェア中心、オープン化以後はソフトウェアです。今現在、学校で行われているのはプログラミング教育であって、DRAMの仕組みなどはやりません。
しかし最先端のトレンドはデータです。ソフトウェアからデータへと移ってきています。昨今のデータ処理プログラムとはライブラリの活用であり、イチから書くことは滅多にありません。そして業務部門やデータサイエンティストの要求もデータです。つまり「これこれのデータをくれ。データはあるんだろう?」です。
ただデータが存在だけでは使えることを意味しません。有無をしらべ有り場所を探し、意味を調べ中身をチェックしデータ連携を構築します。しかしそれには時間とコストがかかり、要求に応えられない。それが現在のIT共通の悩みです。
悩みの原因は「考え方」にありました。それはソフトウェア中心の考え方です。データの有り場所どころか、あるかどうかも分からないのに、処理をどう作るかを真っ先に考えてしまいます。
それも当然、ソフトウェアは資産なので「積み上げ」指向で考えるからです。減価償却もします。
それに対して、データファブリックは減点法、マイナス指向の考え方を提示します。根本にあるのは、データのサプライチェーンです。データは形を変え、組み合わされ、場所を移動し最終的に消費されて価値を生みます。「チェーン」だけに、途中で一箇所切れるだけでも価値は生まれません。一箇所で遅れれば、そのまま全体の遅れにつながります。サプライチェーンの改善とは、途切れたところ、遅いところを減点法で見つけて直すことです。
それを支えるのが、強力なデータインテグレーション基盤です。一つ一つのデータ連携ではなく、いろいろなデータ連携を一手に担うパワーを持ちます。データファブリックにつらなるデータ連携として、最も注目されているのがデータ仮想化です。
ビッグデータの立役者のひとつがデータレイクです。データの蓄積が容易で高速・大容量を実現する「量」の技術です。問題は、データを取出した後です。データレイクは届けることまでは面倒を見てくれません。
データファブリックの観点は「では、どうデータインテグレーションすれば届くのか?」です。そして現在、有望視されているのがデータ仮想化です。データ仮想化は、高速・リアルタイムにデータを流通させ、仮想データベースがそこにあるかのように(仮想化)見せます。自分ではデータを持たず、他のデータベースやファイルからデータを吸い上げ、ビュー(View)を作成します。データレイクやデータウェアハウスにデータをで蓄積し、データ仮想化で一気にデータ流通を加速させるのです。
そうすると、数多あるデータレイクやRDBMS、ローカルファイルも、すべて含めた「データベース」に見えるわけです。実際には、仮想の「データベース」や「データウェアハウス」それに「データマート」がいくらでも作成できます。(実際は単純に取りに行くだけではなく、最適化実行計画やキャッシュなど様々なテクノロジーに支えています)
また、データ仮想化は、連携するすべてのテーブルやファイル、項目をすべて把握しています。リポジトリに保管します。タグをつけ、別名を付与し、説明文をつけることで、データ探しの手間を大幅に短縮します。これが、データファブリックにデータ仮想化が適しているもう一つの理由であるデータカタログ機能です。単なるカタログではない、通販やeコマースのデータカタログです。
データ仮想化はデータ連携をすでに持っています。あとは選ぶだけで、データを容易に取得できるためです。なおユーザーの権限次第で、データを選んでも見せない制御が働いています。個人情報や部外秘情報などです。
こうした基盤を駆使することで、データファブリックを実現していきます。ビジネス側では、手元で使えるわずかなデータに囚われる必要はありません。全社のデータを(権限の範囲で)自由に使える前提で、新しいビジネスや新しいデータ活用に専念できます。
これが、データファブリックの最先端にいるのがデータ仮想化であるという主張となります。
TIBCOのデータ仮想化ソリューション TIBCO Data Virtualization(TDV)は、貴社のデータファブリックを強力に推進します。