データリンキング

データリンキングとは？
データリンキングの仕組み
データリンキングの手順
データをリンキングする手法
データリンキングの範囲
データリンキングのメリット
データリンキングの課題
データリンキングは今行うべき未来への投資

データリンキングとは？

ここでいうデータリンキングとは、「データの関連付け」と「匿名化」を意味します。さまざまなデータソースから個人や人物に関する情報を取得して統合し、さまざまな切り口でデータの傾向やパターンを抽出するツールのことです。このツールはリサーチにおいて詳細から全体像まで幅広い範囲で使われ、それぞれにおける利点や課題があります。データリンキングは、研究や政策立案において長年のあいだ使われてきており、その間の技術の進歩を反映して進化してきました。

データリンキングでは、複数のデータソースから情報を収集して加工し、より価値のあるデータセットを作成します。たとえば同じ人物について、異なるデータソースから得た異なる情報を相互に関連付けることにより、その人物のタイムラインを合成したりするようなことです。こうした情報は、価値ある政策を決定する上で非常に価値があるものです。

さまざまなデータソースからの情報をリンクすることで、多数の属性を一つのレコードとして持つ大きなデータセットが作成されます。この場合の目的は、マクロレベルで意思決定することです。たとえば、ある地域の子供たちに関する情報から、どのような幼児教育プログラムや学校が必要といった政策の決定を行います。

かつては、この種の情報を持っているのは政府だけでした。しかし現代ではさまざまなデータソースがこうした情報を持っており、個人のプライバシーと安全性を維持しながらリンキング(取得し統合)することができます。政策リサーチにおいては、これらのデータを適切に活用して住民のニーズやその特徴を把握し、コミュニティの健康や社会サービスの改善を行います。

データリンキングの仕組み

個人は日々の生活のなかで、さまざまなサービスを利用します。それらサービスでは、誰がどのようなデータを登録したかが逐一記録されており、これを管理(アドミニストレーション)データと呼びます。このデータは、時間の経過とともに蓄積され、学校や病院などには膨大なデータが保管されています。

データ運用担当者がこのデータを管理しますが、その役割の一つに、個人のプライバシーの確保があります。部門内で管理されるデータは少量であり、また個人を特定できる情報を含んでいるため、部門の目的に限定して使用されます。データリンキングは、複数のデータセットを統合し、データを匿名化し、プライバシーと倫理基準をクリアし、またセキュリティを確保しながら有用なデータを共有し、意思決定や政策立案を支援します。

データリンキングの手順

政策担当者はリンクされたデータを使って社会に貢献します。早産児に学習障害の可能性があるならば、何歳の時点でどのような対応をするのがもっとも発達を促すかを考えて政策を立案します。立案した政策を検証するためには、出生・教育・健康などのデータが必要です。

リンクされたデータは、こうしたニーズに応える貴重なデータです。そのための役割がデータリンキングによるリサーチアドバイザーです。アドバイザーは、政策担当者とさまざまなデータ(出生データ、幼児期の健康データ、および教育データなど)の運用者を仲介する立場です。政策担当者がデータを求める理由を明示することによって、データが必要な理由が正当であり、データが適切に利用されることがデータ運用担当者から見て明確になります。

その後、政策担当者は対象者や関係者対して、今回取得したデータは地域の福祉に貢献すること、プライバシーの取り扱いに問題がないことを証明し、倫理委員会がデータリンキングを承認します。承認されたことはデータ運用担当者にも伝達され、データ運用者がデータの使用に最終承認を与えます。承認されたことは、最後にリサーチアドバイザーに伝達されます。

ここからが実際のデータリンキング作業です。アドバイザーはデータごとに運用担当者に依頼して、今回必要なデータを取得します。データはデータリンキング用のソフトウェアによってリンクされ、その結果、各個人は匿名化され「リンクキー」と呼ばれる一意のコードが割り当てられます。それ以後、政策担当者は個人名ではなくリンクキーを使用してデータセットにある個人のデータをリンクします。

政策担当者はリンクされたデータを分析し、早産した幼児の中に発達上の問題を発見します。この問題は幼児教育プランナー、データ運用担当者、政策立案の責任者、それぞれに提供されます。リンクされたデータと相関関係を利用することで、あらたな幼児教育プログラムが試験的に開始されます。

このように、リンクデータを使ったリサーチは匿名化によって個人のプライバシーを確保しつつ、地域の福祉を軸に各政策部門や政策立案者が互いに緊密に協力するのに役立っています。

データをリンキングする手法

具体的なデータをリンキングする手法について説明します。

1.ユニーク識別子

これは、異なるデータセット間でデータをリンクする最もシンプルな方法です。各データセットのデータそれぞれが、データセットを横串にして一意に本人を確定するユニーク識別子を持ちます。識別子であるため、同一人物であれば完全一致し、別人であれば一致しません。これは決定論的または完全一致リンキングと呼ばれます。方法としては完全に確実なのですが、最初からユニーク識別子をそなえたデータセットは滅多にありません。

2.リンクキー

そこで用いられるのが、リンクキーと呼ばれるアプローチです。リンクキーはユニーク識別子のような働きをし、リンクしたい双方のデータセットの中にある、名前や住所などの情報で「名寄せ」をすることで作成されます。いったんリンクキーが作成されると、それ以降は本人を表すのに名前や住所ではなくリンクキーが使用されるため、個人のプライバシーが保護されます。

3.確率的リンキング

これもは、ユニーク識別子が利用できない場合のアプローチです。あるデータセットに含まれる2つのレコードが同一人物を指している確率を計算します。データリンキングソフトウェアの持つ高度なアルゴリズムを使用し、正確な確率を求めます。

4.統計的リンキング

これは、類似レコードを集約する技術であり、同一人物であることをそもそも求めません。正確性では劣りますが、統計的にパターンやトレンドを調査するには十分だという場合に使用します。

データリンキングの範囲

データリンキングにおいて、政治や制作担当者は、関係者および倫理委員会から承認を受けてプロジェクトを準備します。データリンキングにはさまざまな目的が設定されます。

ライフサイエンス

ライフサイエンスにおけるデータリンキングの用途は、遺伝子工学や蛋白質解析などにおける解析や治験の相関の調査に使われています。たとえば、オーストラリアでは、Atlas of Living Australiaというポータルが、オーストラリアのすべての生物のデータにそれぞれの名称、説明、画像などのデータを組み合わせています。このポータルでは、それぞれの種に対して永続的な識別子を作成することで、その種に関して異なる組織の持つデータをエラーなしに組合わせることが可能となりました。仮にその生物の名称が変更されたとしても、追跡してマッチングさせることも可能です。

政府機関

政府機関は、それぞれの国民から公共のデータセットを世界中の政府と連携するよう、様々なグループから強く要請されてきました。この圧力によって、さまざまなデータセット間での透明性と相互参照性が向上してきました。ここでリンクされた情報によって、新しい政策・規制・制度が開始されることもあります。その他にも、リンクされたデータを使って異なる組織間でデータの突合・比較を行うこともできます。

ヘルスケア

ヘルスケア業界においても、リンクされたデータを用いた様々な研究が行われています。例えば、研究者は、母親の年齢・ライフスタイルと子供の発達・成長との相関関係の調査にリンクされたデータを活用しています。他にも、リンクされたデータは、糖尿病などの生活習慣病の発生についての研究にも活用されています。

図書館

図書館は初期の頃からリンクされたデータを利用してきました。例えば、スウェーデンのUnion Catalogは2008年にデータリンキングを開始、ドイツ国立図書館も2010年にデータリンキングを開始しました。現在、ドイツのリンクデータを英国書誌データとリンクさせるプロジェクトが実施中です。こうしたデータリンキングが進むことで、特定の本や著者、その哲学についてより深い知識を得ることができます。

大学およびアーカイブ

大学およびアーカイブも同様に、人・場所・組織・出版物に関するデータをリンクしてきました。例えば、オーストラリアのScience Archives Projectは、オンライン遺産資源マネージャー（OHRM）を開発しました。インターネット上のデータをリンクする初期の事例です。

ソーシャルメディア

FacebookなどのSNSも、ユーザーと彼らが使っているWebコンテンツとの関係を追跡するために、Open Graphプロトコルによるデータリンキングを使い始めました。WebページのメタデータにOpen Graphタグを追加することで、Facebookはそのページの画像と説明をFacebookサイト内で表示することができます。

業務利用

リンクされたデータは、日常業務にも使用されています。とくに、さまざまなデータが混合されたものを多数の利害関係者やシステムに共有する場合です。たとえば物流は規模も大きく、サプライチェーン上の色々なプレイヤーが関与しています。広い範囲のデータを互いにリンクすることで、配送ルートの最適化や倉庫の効率化などが可能になります。

データリンキングのメリット

データリンキングは、あらゆるリサーチで役に立つ手法です。異種のデータセット相互の関係やリンクを通じて、新たに有益な気づきを生み出すことができます。主な利点は以下の通りです。

リサーチと政策立案

リンクされたデータセットは、教育や医療などの様々な分野におけるリサーチ、およびそのリサーチに基づく政策立案に貢献しています。

ビジネスリサーチ

データリンキングは、ビジネスにおいて異なる種類の数値の相関関係を発見するのに有用です。例えば、業務実績と税金とをリンクして、高学歴を雇うことの有用性、退職率、その他の多数の指標に関する情報を得ることができます。

リードタイムの短縮

データリンキングは既存のデータの利用性を容易にし、新規のデータ収集の時間と工数を短縮します。

データリンキングの課題

データリンキングはリサーチやビジネスに役立つツールですが、リンクを作るのは簡単なことではありません。そこには、次のような課題があります。

共通の識別子を作ること

基本的に、異なるデータセット間において、最初から共通の識別子があるわけではありません。例えば、おなじ医療の領域、おなじ患者であっても、異なるデータセット間で同じ識別子を持っているわけではありません。ここにデータサイエンティストが参加した場合、新たな識別子 (準識別子:QID Quasi-IDentifier）を作成する必要があります。

承認に時間がかかる

データをリンクするには、運用管理者や倫理委員会などの関係者による承認が必要です。この承認を得るまでに多大な工数と投資、期間を必要とします。これが原因でプロジェクト遅延や予算超過が発生することがよくあります。

データの不整合や不備

人事系の管理データセットでは、構造やフォーマットが異なっていてデータの不整合を起こすことがよくあります。例えば、個人の名前はブラジルでも重要なデータです。各自治体のデータをリンクする際には、名前を中心にして性別、生年月日などをリンクしていきます。しかし、ブラジルにおける名前の管理が独特であるため、さまざまな変換をしなくてはリンクできない場合があります。

ある人物が5つの名前を持つことがあります。あるデータセットでは5つの名前すべてを登録している一方、別のデータセットでは1番目の名前だけしか登録されていない場合があります。データセット間で属性を揃えることがまず重要です。

コスト

データリンキングの構築は、さまざまなソースからのデータ収集および高度なアルゴリズムを活用します。必然的に費用のかかるプロセスになるため、これが原因でリンクができない場合があります。

データリンキングは今行うべき未来への投資

データリンキングは、より信頼できるデータセットを作成するために、異なるデータ構造を同一人物による横串の相関関係を見つけるプロセスです。データリンキングは小さなレベルから全社レベルにも影響する重要なツールです。異なるデータソースからの情報がリンクされることで、効率的な業務を設計したり、医療や教育などの政策を正しく行ったりすることが可能になります。

データリンキングは、今後さまざまなデータセットからデータを集めて貴重な情報に変えていく手段であり、ライフサイエンスからSNS、そして学問などさまざまな分野で実装されていくでしょう。データリンキングは将来的に大きな貢献を得られる素晴らしいツールです。