2020/12/21

統計分析

様々なデータ型間の相関

このコンテンツでは、データの相関を調べる方法について説明していきます。なお、本コンテンツで利用したSpotfireのバージョンは10.10/11.4です。ご利用環境によって、一部画面構成が異なる可能性がありますので、ご了承ください。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

サンプルファイルについて

サンプルファイルの読み込み

本コンテンツで利用するサンプルファイルは、こちらからダウンロードしてください。

Baseball.dxpファイルをダブルクリックすると、Spotfireが起動します。起動時の画面です。Baseball.dxpは、野球に関するデータを可視化したファイルとなっており、2ページ構成になっています。最初のページはカバーページです。

新規ページの作成

新規ページを作成します。左下「Getting Started」タブの右にある「+」ボタンをクリックします。

以下の新規ページが立ち上がりました。

カラムの相関を調べたい

カラムの相関性を調べるには、Data Relationshipsを使用します。この機能を使用して、様々なカラム間の相関性を見ることができます。

上部メニュー「ツール」をクリックして、Data Relationshipsをクリックします。

比較方法

Data Relationshipsでは比較方法、X軸、Y軸の3つの設定項目があります。データの方式に応じて比較方法を選択し、X軸×Y軸のペアの総当たりで比較を行います。

データには数値データとカテゴリデータがあります。「数値×数値」が2つ、「数値×カテゴリ」が2つ、「カテゴリ×カテゴリ」が1つで計5つのアルゴリズムを選択できます。

数値カラム同士を比較したければ、「線形回帰」か「スピアマンR」を使用します。カテゴリデータと数値データを比較する場合は、「Anova」か「クラスカル・ウォリス」を選択します。カテゴリカラム同士を比較する場合は「カイ 2 乗オプション」を使用します。

「スピアマンR」と「クラスカル・ウォリス」はノンパラメトリック手法となっています。悩んだ場合は「数値×数値」の場合は「線形回帰」、「数値×カテゴリ」の場合は「クラスカル・ウォリス」を選択します。

結果表示

実行すると、カラムペアについてそれぞれp-valueが計算されます。p-valueは、最初のカラムの値から 2 番目のカラムの値をどの程度予測できるかを示すものです。p-valueが0に近ければ近いほど、2つのカラムの相関性は強いと考えられます。

今回の比較方法は「線形回帰」を選択してみます。

線形回帰の場合の結果表示

線形回帰の場合は、p-valueだけでなくRSq(相関係数)にも注目します。その値が1に近いときは正の相関、-1に近ければ負の相関があることがわかります。

カテゴリX数値比較の場合

比較方法で「Anova」か「クラスカル・ウォリス」を選択した場合は、「選択したXカラム」にカテゴリデータを入れてください。

「数値・カテゴリ」の場合は分散分析になるので、結果は箱ひげ図になります。

箱ひげ図の解釈に不慣れな方は、プロパティの表示から「分布を表示する」にチェックを入れると分かりやすいです。

分布を表示すると、横向きのヒストグラムのような表示になります。

データ範囲の変更

現在表示しているデータで、カテゴリごとに大きな違いがある場合などは、個別に比較する必要が出てきます。

フィルターをかけて比較するのが便利ですが、その際計算表は自動的には更新されません。

↑は半導体のデータを使用した線形回帰です。このように、全体では相関がありそうでも、2つのカテゴリ間で大きく分散が異なっている場合があります。その際はカテゴリごとに分けて見ましょう。

フィルター後には、結果表のタイトルに更新ボタンが表示されます。クリックすると、現在のデータを元に再計算されます。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【統計分析】記事一覧に戻る
全記事一覧に戻る