2023/01/31

統計分析

回帰モデリングの使い方

※本記事は1/31開催セミナー「TIBCO Spotfire活用セミナー～統計解析ツール - 回帰モデリング編 - ～」で紹介した内容です。

このコンテンツでは、統計解析ツールの回帰モデリングについて説明しています。
本コンテンツで利用したバージョンは、Spotfire Analyst 11.4です。ご利用環境によって、一部画面構成が異なる場合がありますので、ご了承ください。

統計解析機能について
回帰モデリングとは
モデルの紹介と結果の見方
・線形回帰
・回帰ツリー
回帰モデリングの使い方デモ

統計解析機能について

Spotfireに標準搭載されている統計ツールは、誰でも簡単に統計的な手法を使ってデータに含まれるパターンや傾向を確認できます。
以下の統計手法が搭載されています。

Data Relationships
ライン類似性検索
K平均法クラスタリング
階層的クラスタリング
回帰モデリング
分類モデリング

本コンテンツでは、回帰モデリングについて説明します。

回帰モデリングとは

回帰モデリングは結果（連続値）に影響する要因の特定や予測ができる回帰モデルを作成する機能です。

Spotfireで利用できる回帰モデルは2つあります。

線形回帰
回帰ツリー

モデルの紹介と結果の見方

線形回帰

モデルの紹介

線形回帰は、説明変数Xを利用して、目的変数Yを予測する関係式（回帰式）を作成します。

単回帰だけでなく、複数の説明変数を入れること（重回帰分析）が可能です。これにより、複数の要因から影響の大きい要因を特定できます。

結果の見方

線形回帰の結果は3領域に分けて表示されます。

①モデルの要約
決定係数（Multiple R-squared）や自由度調整済み決定係数（Adjested R-squared）を確認してモデルの精度を確認できます。

決定係数
- データに対する、推定された回帰式の当てはまりの良さを示します。0~1までの値をとり、1に近づくほど回帰式の当てはまりが良いこと（精度の良いモデル）を表します。
- 説明変数の数が増えるほど値が大きくなる性質があります。
自由度調整済み決定係数
- 決定係数の性質を補正し、説明変数の数に影響を受けないように調整をした指標です。
- 説明変数の数が異なるモデル同士で精度の比較をする際に用います。

②係数表
表から回帰式を読み取ることができます。

③診断用ビジュアライゼーション
以下のビジュアライゼーションからモデルの妥当性を判断できます。
詳しくはSpotfireに内蔵されている「TIBCO Spotfire ユーザーガイド」（ツールバー「ヘルプ」> 「ヘルプトピック」）をご参照ください。

残差対適合
正規Q-Q
スケール-場所
クック距離
変数重要度

回帰ツリー

モデルの紹介

回帰ツリーは、データから決定木と呼ばれるツリー構造を作成して予測を行います。
予測値はデータをいくつかの区画に区切り、区画ごとの平均値から算出します。
親ノードからの分割基準は、子ノードの平均値からのばらつきが親ノードよりも小さくなるように決定します。

結果の見方

回帰ツリーの結果は2領域に分けて表示されます。

①モデルの要約
結果からツリー構造の分岐を確認できます。

②診断用ビジュアライゼーション
以下のビジュアライゼーションからモデルの妥当性を判断できます。詳しくはSpotfireに内蔵されている「TIBCO Spotfire ユーザーガイド」（ツールバー「ヘルプ」> 「ヘルプトピック」）をご参照ください。

適合対適合
レスポンス対適合
変数重要度

回帰モデリングの使い方デモ

本コンテンツでは、半導体のデータを用いて、歩留まりを予測する線形回帰を行います。
以下の流れで実施します。
①モデルの作成：歩留まりに影響する要因を特定
②モデルの評価・予測：歩留まりを予測

サンプルデータ

本コンテンツで使用するデータはこちらからダウンロードしてください。
半導体製造工程におけるサンプルデータです。

①モデルの作成

データの読み込み・確認

まず「Chip_sample_train.csv」を読み込みます。
テーブルを表示してデータを確認します。「ビジュアライゼーションタイプ」>「テーブル」を選択します。
1行1ウェハのデータになっています。

LOT：製造における最小単位。1ロットにつき最大25ウェハを製造。
WAFERNO：ウェハ番号
歩留まり：1枚のウェハから取得できる良品チップの割合
PT_Para1-32：各製造工程で取得したセンサーデータ。各ウェハから取得できたICチップにおけるパラメータの平均値をとっています。

説明変数の選定

今回は、歩留まりを予測する線形回帰モデルを作成します。
モデルを作成する前に、目的変数「歩留まり」に影響する説明変数「PT_Para」(パラメータ)を選定するため、2変数の関連性を総当たりで確認します。
メニューバー「ツール」>「Data Relationships」を選択し、以下を設定して「OK」を押します。

データテーブル：Chip_sample_train
比較方法：線形回帰
Y：歩留まり率
X：PT_Para1~32

歩留まりと関連のあるパラメータが表示されます。一般的にP値が0.05より小さければ有意とみなします。確認すると、多くのパラメータで有意であることが分かります。
今回は上から順に7つのパラメータを説明変数として使用します。
※下図はP値を指数表記から小数に直しています。方法はこちらをご参照ください。

線形回帰モデルの作成

上記で選んだ7つのパラメータを説明変数に入れてモデルを作成します。
メニューバー「ツール」>「回帰モデリング」を選択し、以下を設定して「OK」を押します。

モデルメソッド：線形回帰
データテーブル：Chip_sample_train
レスポンスカラム：歩留まり
予測カラム：PT_Para31、PT_Para26、PT_Para19、PT_Para18、PT_Para16、PT_Para20、PT_Para17

すると、結果の画面が出てきます。
決定係数を確認すると、0.70と比較的高い数値が出ており、モデルの当てはまりが良いことが分かります。
※決定係数の値はいくつ以上であれば良いなどの明確な基準はありません。値の閾値についてはケースバイケースになります。

変数重要度を見ると、歩留まりにはPT_Para18が一番影響を与えていることが分かります。
PT_Para18のP値から統計的に有意な結果であり、偏回帰係数が0.21であると分かります。このことから、PT_Para18の値が1大きくなると歩留まりが0.21上がり、逆に値が小さくなると歩留まりも下がることが分かります。

この結果から、PT_Para18は注視すべきパラメータであり、関連しているプロセスや装置を見直すといったアクションを起こすことができます。

②モデルの評価・予測

先ほど作成した線形回帰モデルを評価し、新しいデータに対して歩留まりを予測していきます。

データの読み込み・確認

新たにデータを追加します。「Chip_sample_validation.csv」「Chip_sample_test.csv」をそれぞれ新しいデータテーブルとして取り込みます。

各データについての説明は以下の通りです。

Chip_sample_train：
　モデルの作成（学習）に使用したデータ。
Chip_sample_validation：
　モデルの評価に使用するデータ。目的変数「歩留まり」を含んでいます。
Chip_sample_test：

モデルから歩留まり率を予測するために使用するデータ。目的変数「歩留まり」は含まれません。

モデルの評価

先ほど作成したモデルに対して、同じ目的変数（歩留まり）と説明変数（PT_Para）がある別のデータを入れることで、モデルの精度を評価します。
先ほど作成した線形回帰モデルの結果ページの「モデルの評価」アイコンをクリックします。

すると、「分析モデルの評価」ダイアログが表示されるので、以下の設定をします。カラムの対応付けが完了したら「OK」を押します。

データテーブルを選択：Chip_sample_validation
レスポンスカラムの対応付け：歩留まり・予測カラムの対応付け：PT_Para31、PT_Para26、PT_Para19、PT_Para18、PT_Para16、PT_Para20、PT_Para17

モデルの評価の結果ページが表示されます。決定係数を確認します。すると、0.79と高い数値が出ており、モデルの精度が良いことが分かります。
今回はモデルの精度が良い結果になりましたが、モデルの精度が良くない場合、再度モデル作成に戻り、変数の調整などを行います。

モデルから予測

最後に作成したモデルを使用して予測を行います。モデルを作成したページ「マイモデル」に戻り、「モデルから予測」アイコンをクリックします。

すると、「予測されたカラムを追加」ダイアログが表示されるため、以下の設定をします。設定ができたら「OK」をクリックします。

データテーブルを選択：Chip_sample_test
予測カラムの対応付け：PT_Para31、PT_Para26、PT_Para19、PT_Para2、PT_Para17、PT_Para18

画面に変化はありませんが、予測ができていることを確認します。
新たにページを追加して、テーブル「Chip_sample_test」を表示します。
横にスクロールして右端のカラムを確認すると、「Predicted」というカラムが新たに追加されています。「Predicted」には歩留まりの予測値が算出されています。