Data Relationshipsの使い方

※本記事は9/30開催セミナー「TIBCO Spotfire活用セミナー～統計解析ツール -Data Relationships編- ～」で紹介した内容です

このコンテンツでは、Data Relationshipsについて説明しています。
本コンテンツで利用したバージョンは、Spotfire Analyst 11.4です。ご利用環境によって、一部画面構成が異なる場合がありますので、ご了承ください。

統計解析機能について
「Data Relationships」とは
アルゴリズムの紹介と結果の見方
・アルゴリズムの紹介
・結果の見方
「Data Relationships」使い方デモ
・ANOVAの実行
・フィルターをかける
・P値の指数表記を小数にする方法

探索的分析/原因分析の領域で
高い評価と実績

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

無料トライアル

商品について詳しく知る

統計解析機能について

Spotfireに標準搭載されている統計ツールは、誰でも簡単に統計的な手法を使ってデータに含まれるパターンや傾向を確認できます。
以下の統計手法が搭載されています。

Data Relationships
ライン類似性検索
K平均法クラスタリング
階層的クラスタリング
回帰モデリング
分類モデリング

「Data Relationships」とは

「Data Relationships」は変数（カラム）間の関連性を簡単に把握できる機能です。

例えば、関連性を見たい変数が多い際に、Data Relationshipsを利用することでスピーディーに結果を把握できます。

アルゴリズムの紹介と結果の見方

アルゴリズムの紹介

Data Relationshipsのアルゴリズムは5種類あり、下表のようにカラムタイプとデータの分布によって使い分けます。

【補足】
パラメトリック/ノンパラメトリックは統計的検定の手法です。母集団のデータの分布によって使い分けます。

パラメトリック検定
・母集団の分布が何らかの分布（例：正規分布）に従っている際に用いる検定法
ノンパラメトリック検定
・母集団の分布を仮定しない検定法

参考として、データの分布が正規分布に従っているか調べる方法は正規性確率プロットをご参照ください。

5種類の中でもよく使う3つのアルゴリズムについて簡単に説明します。

線形回帰
・2つの連続変数の因果関係を分析する統計手法。2変数に相関があるかを検定します。相関係数Rは[-1~＋1]の値を取り、絶対値に近づくほど相関が大きくなります。
ANOVA
・データのカテゴリ依存性を分析する統計手法。一般的には3グループ以上の平均値に差があるかどうかを検定します。
カイ2乗検定
・カテゴリ間に関連があるかを分析する統計手法。観測値の分布と理論的に予測されるデータの分布が一致しているかどうかを検定します。

結果の見方

Data Relationshipsの計算結果は、計算結果データテーブルとビジュアライゼーションで自動的に表示されます。計算結果データテーブルをマークすると、マークした変数（カラム）の組み合わせでのビジュアライゼーションを確認できます。
※下図は線形回帰の例です。

計算結果データテーブルは、P値の小さい順に自動ソートされます。
一般的にはP値が0.05未満であれば、変数間には関連性があると判断します。

「Data Relationships」使い方デモ

本コンテンツでは半導体のデータにおいて、ANOVA（分散分析）を用いてICチップの品質情報とパラメータの関係性を見ていきます。

サンプルデータ

本コンテンツで使用するデータはこちらからダウンロードしてください。
1行につき1つのICチップのデータになっています。

ANOVAの実行

Chip_sample.csvを読み込みます。Spotfire画面左側の＋ボタンから「ローカルファイルを参照」し、Chip_sample.csvを選択します。

データの中身を確認するため、テーブルを表示します。「ビジュアライゼーションタイプ」から「テーブル」を選択します。
1行につき、1つのICチップのデータです。

BIN：品質情報（0は良品、それ以外は不良カテゴリ）
PT_Para：製造工程におけるセンサーデータ（パラメータ）

メニューバー「ツール」> 「Data Relationships」を選択します。
すると、「Data Relationships」ダイアログが表示されます。
今回はANOVAを選択して、BIN（品質情報）によって、値に差が出るパラメータを見つけ出します。
設定ができたら「OK」を押します。

比較方法：Anova
Xカラム：BIN
Yカラム：PT_Para1~32

すると、計算結果データテーブルとBox Plotが表示されます。今回はP値0.05を基準に関連性を見ていきます。多くのパラメータのP値が0に近い値です。
今回は有意になったパラメータの中で、PT_Para31を確認します。Box Plotで確認をすると、不良カテゴリAは他のカテゴリに比べてパラメータの値が高いことが分かります。
このことから、知見を基にPT_Para31が関係している製造プロセスや装置を見直すといったアクションや、次の分析に繋げられます。