2022/09/30

統計分析

Data Relationshipsの使い方

※本記事は9/30開催セミナー「TIBCO Spotfire活用セミナー ~ 統計解析ツール -Data Relationships編- ~」で紹介した内容です

このコンテンツでは、Data Relationshipsについて説明しています。
本コンテンツで利用したバージョンは、Spotfire Analyst 11.4です。ご利用環境によって、一部画面構成が異なる場合がありますので、ご了承ください。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

統計解析機能について

Spotfireに標準搭載されている統計ツールは、誰でも簡単に統計的な手法を使ってデータに含まれるパターンや傾向を確認できます。
以下の統計手法が搭載されています。

  • Data Relationships
  • ライン類似性検索
  • K平均法クラスタリング
  • 階層的クラスタリング
  • 回帰モデリング
  • 分類モデリング

「Data Relationships」とは

「Data Relationships」は変数(カラム)間の関連性を簡単に把握できる機能です。

例えば、関連性を見たい変数が多い際に、Data Relationshipsを利用することでスピーディーに結果を把握できます。

アルゴリズムの紹介と結果の見方

アルゴリズムの紹介

Data Relationshipsのアルゴリズムは5種類あり、下表のようにカラムタイプとデータの分布によって使い分けます。

【補足】
パラメトリック/ノンパラメトリックは統計的検定の手法です。母集団のデータの分布によって使い分けます。

  • パラメトリック検定
    ・母集団の分布が何らかの分布(例:正規分布)に従っている際に用いる検定法
  • ノンパラメトリック検定
    ・母集団の分布を仮定しない検定法

参考として、データの分布が正規分布に従っているか調べる方法は正規性確率プロットをご参照ください。

5種類の中でもよく使う3つのアルゴリズムについて簡単に説明します。

  • 線形回帰
    ・2つの連続変数の因果関係を分析する統計手法。2変数に相関があるかを検定します。相関係数Rは[-1~+1]の値を取り、絶対値に近づくほど相関が大きくなります。
  • ANOVA
    ・データのカテゴリ依存性を分析する統計手法。一般的には3グループ以上の平均値に差があるかどうかを検定します。
  • カイ2乗検定
    ・カテゴリ間に関連があるかを分析する統計手法。観測値の分布と理論的に予測されるデータの分布が一致しているかどうかを検定します。

結果の見方

Data Relationshipsの計算結果は、計算結果データテーブルとビジュアライゼーションで自動的に表示されます。計算結果データテーブルをマークすると、マークした変数(カラム)の組み合わせでのビジュアライゼーションを確認できます。
※下図は線形回帰の例です。

計算結果データテーブルは、P値の小さい順に自動ソートされます。
一般的にはP値が0.05未満であれば、変数間には関連性があると判断します。

「Data Relationships」使い方デモ

本コンテンツでは半導体のデータにおいて、ANOVA(分散分析)を用いてICチップの品質情報とパラメータの関係性を見ていきます。

サンプルデータ

本コンテンツで使用するデータはこちらからダウンロードしてください。
1行につき1つのICチップのデータになっています。

ANOVAの実行

Chip_sample.csvを読み込みます。Spotfire画面左側の+ボタンから「ローカルファイルを参照」し、Chip_sample.csvを選択します。

データの中身を確認するため、テーブルを表示します。「ビジュアライゼーションタイプ」から「テーブル」を選択します。
1行につき、1つのICチップのデータです。

  • BIN:品質情報(0は良品、それ以外は不良カテゴリ)
  • PT_Para:製造工程におけるセンサーデータ(パラメータ)

メニューバー「ツール」> 「Data Relationships」を選択します。
すると、「Data Relationships」ダイアログが表示されます。
今回はANOVAを選択して、BIN(品質情報)によって、値に差が出るパラメータを見つけ出します。
設定ができたら「OK」を押します。

  • 比較方法:Anova
  • Xカラム:BIN
  • Yカラム:PT_Para1~32

すると、計算結果データテーブルとBox Plotが表示されます。今回はP値0.05を基準に関連性を見ていきます。多くのパラメータのP値が0に近い値です。
今回は有意になったパラメータの中で、PT_Para31を確認します。Box Plotで確認をすると、不良カテゴリAは他のカテゴリに比べてパラメータの値が高いことが分かります。
このことから、知見を基にPT_Para31が関係している製造プロセスや装置を見直すといったアクションや、次の分析に繋げられます。

フィルターをかける

Data Relationshipsの計算は、フィルターで絞り込まれたデータを使って行われます。
試しに、WAFER番号を絞り込んでフィルターをかけます。
すると、計算結果テーブルのタイトルバーに更新アイコンが表示されます。このアイコンをクリックします。

すると、現在のフィルター設定に応じて再計算されます。再計算されたことにより、結果が変わっていることが確認できます。

P値の指数表記を小数にする方法

補足として、「Data Relationships」を用いた計算結果データテーブルのP値はデフォルトでは指数表記になっています。指数表記を小数に直したい場合、「分析内のデータ」フライアウトで設定をします。

  • データテーブル:Data Relationshipsを利用して生成された計算結果データテーブルを選択
  • 書式設定:数値 (デフォルトでは科学表記)
    ※小数点以下第3位まで表示したい場合は、書式設定の横の歯車マークで「実数値:3」にします。

すると、P値が小数表記になり、大きさが分かりやすくなりました。

以上のように、Data Relationshipsを用いることで変数間の関連性を一覧で簡単に把握できます。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【統計分析】記事一覧に戻る
全記事一覧に戻る