TIBCO

TIBCO
トップ
製品
戻る

製品
Spotfire^®

Spotfire^® Data Science

Spotfire^® Streaming

TIBCO^® Data Virtualization

TIBCO EBX
ソリューション
戻る

ソリューション
業界別
ソリューション

製造業

エネルギー・公共事業

小売業

金融業
テクノロジー
ソリューション

データファブリック

データカタログ

異常検知
目的別
ソリューション

データ基盤スターターパック
伴走支援

プロフェッショナルサービス
事例
パートナー
資料
セミナー
コラム
学習コンテンツ
サポート

Spotfire

TIBCO Data Virtualization

TIBCO EBX

2020/12/21

統計分析

様々なデータ型間の相関

このコンテンツでは、データの相関を調べる方法について説明していきます。なお、本コンテンツで利用したSpotfireのバージョンは10.10/11.4です。ご利用環境によって、一部画面構成が異なる可能性がありますので、ご了承ください。

目次

サンプルファイルの読み込み
カラムの相関を調べたい
カテゴリＸ数値比較の場合
データ範囲の変更

探索的分析/原因分析の領域で
高い評価と実績

TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

無料トライアル

商品について詳しく知る

サンプルファイルについて

サンプルファイルの読み込み

本コンテンツで利用するサンプルファイルは、こちらからダウンロードしてください。

Baseball.dxpファイルをダブルクリックすると、Spotfireが起動します。起動時の画面です。Baseball.dxpは、野球に関するデータを可視化したファイルとなっており、2ページ構成になっています。最初のページはカバーページです。

新規ページの作成

新規ページを作成します。左下「Getting Started」タブの右にある「＋」ボタンをクリックします。

以下の新規ページが立ち上がりました。

カラムの相関を調べたい

カラムの相関性を調べるには、Data Relationshipsを使用します。この機能を使用して、様々なカラム間の相関性を見ることができます。

上部メニュー「ツール」をクリックして、Data Relationshipsをクリックします。

比較方法

Data Relationshipsでは比較方法、X軸、Y軸の3つの設定項目があります。データの方式に応じて比較方法を選択し、X軸×Y軸のペアの総当たりで比較を行います。

データには数値データとカテゴリデータがあります。「数値×数値」が2つ、「数値×カテゴリ」が2つ、「カテゴリ×カテゴリ」が1つで計5つのアルゴリズムを選択できます。

数値カラム同士を比較したければ、「線形回帰」か「スピアマンR」を使用します。カテゴリデータと数値データを比較する場合は、「Anova」か「クラスカル・ウォリス」を選択します。カテゴリカラム同士を比較する場合は「カイ 2 乗オプション」を使用します。

「スピアマンR」と「クラスカル・ウォリス」はノンパラメトリック手法となっています。悩んだ場合は「数値×数値」の場合は「線形回帰」、「数値×カテゴリ」の場合は「クラスカル・ウォリス」を選択します。

結果表示

実行すると、カラムペアについてそれぞれp-valueが計算されます。p-valueは、最初のカラムの値から 2 番目のカラムの値をどの程度予測できるかを示すものです。p-valueが0に近ければ近いほど、2つのカラムの相関性は強いと考えられます。

今回の比較方法は「線形回帰」を選択してみます。

線形回帰の場合の結果表示

線形回帰の場合は、p-valueだけでなくRSｑ(相関係数)にも注目します。その値が1に近いときは正の相関、-1に近ければ負の相関があることがわかります。

カテゴリＸ数値比較の場合

比較方法で「Anova」か「クラスカル・ウォリス」を選択した場合は、「選択したＸカラム」にカテゴリデータを入れてください。

「数値・カテゴリ」の場合は分散分析になるので、結果は箱ひげ図になります。

箱ひげ図の解釈に不慣れな方は、プロパティの表示から「分布を表示する」にチェックを入れると分かりやすいです。

分布を表示すると、横向きのヒストグラムのような表示になります。

データ範囲の変更

現在表示しているデータで、カテゴリごとに大きな違いがある場合などは、個別に比較する必要が出てきます。

フィルターをかけて比較するのが便利ですが、その際計算表は自動的には更新されません。

↑は半導体のデータを使用した線形回帰です。このように、全体では相関がありそうでも、2つのカテゴリ間で大きく分散が異なっている場合があります。その際はカテゴリごとに分けて見ましょう。

フィルター後には、結果表のタイトルに更新ボタンが表示されます。クリックすると、現在のデータを元に再計算されます。

探索的分析/原因分析の領域で
高い評価と実績

TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

無料トライアル

商品について詳しく知る

前の記事

回帰分析の実行

次の記事

データを類似度でグループ化

TAF The Analytics Forum『インサイトからアクションへ』Spotfireが開催するカンファレンスイベント今すぐ視聴する

Spotfire 組織全体でのデータ分析・活用をオールインワンで実現するビジュアルアナリティクスツール無料トライアル実施中

Spotfireの機能・使い方を動画で学べる Spotfire活用セミナーアーカイブ動画配信中セミナー動画視聴はこちら

カテゴリー

【統計分析】最新の記事

【統計分析】記事一覧に戻る

全記事一覧に戻る

エンタープライズデータのグローバルリーダーであるTIBCO（ティブコ）は、顧客のビジネス成果を連携、統合、予測できるよう支援することで複雑なデータドリブンの課題を解決します。