2022/11/28

統計分析

クラスタリングの使い方

※本記事は11/28開催セミナー「TIBCO Spotfire活用セミナー ~ 統計解析ツール - クラスタリング編 - ~」で紹介した内容です

このコンテンツでは、統計解析ツールのクラスタリングについて説明しています。
本コンテンツで利用したバージョンは、Spotfire Analyst 11.4です。ご利用環境によって、一部画面構成が異なる場合がありますので、ご了承ください。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

統計解析機能について

Spotfireに標準搭載されている統計ツールは、誰でも簡単に統計的な手法を使ってデータに含まれるパターンや傾向を確認できます。
以下の統計手法が搭載されています。

  • Data Relationships
  • ライン類似性検索
  • K平均法クラスタリング
  • 階層的クラスタリング
  • 回帰モデリング
  • 分類モデリング

本コンテンツでは、K平均法クラスタリングおよび階層的クラスタリングについて説明します。

クラスタリングとは

クラスタリングとは機械学習の一種でデータ間の類似度に基づき、データをグループ分けする手法です。アルゴリズムには大きく2種類あります。

  • 階層クラスタリング
  • 非階層クラスタリング

それぞれ以下の表のような特徴があります。

アルゴリズムの紹介と結果の見方

Spotfireに搭載されているクラスタリングの手法は2種類あります。

  • K平均法クラスタリング
  • 階層的クラスタリング

K平均法クラスタリング

アルゴリズム

非階層クラスタリングの手法の1つで、設定した「距離の計測方法」を元に、事前に決めたK個のグループにデータを分割します。

以下の手順でクラスタリングが行われます。

  1. 分割するクラスタ数と、クラスタの中心の初期値をランダムに決める
  2. クラスタの中心までの距離を計算し、最も近いグループに分類する
  3. 形成されたクラスタの中心を求める
  4. クラスタの中心が変化しない時点まで、ステップ2、3を繰り返す

※Spotfireでは、距離の計測方法は「ユークリッド距離」「コリレーション」のいずれかを設定できます。

Spotfireではラインチャートを使って波形をグルーピングします。
分類には2つのパターンがあります。

  • 時系列のトレンドパターンによる分類
  • カラムの属性パターンによる分類

結果の見方

グルーピングを示す「カラム」が追加されると共に、ラインチャートが結果に応じてトレリス分けされます。

階層的クラスタリング

アルゴリズム

設定した計算方法に基づいてデータを階層化する方法です。計算結果は、階層のツリー構造(デンドログラム)として表示されます。
デンドログラムに表示されるプルーニングライン(類似度に対応した線)を移動させることで、データをグループ分けできます。

階層的クラスタリングの「階層化処理」は以下の手順で行われます。

  1. 各観測データを、メンバーが1のクラスタとする
  2. 最も類似しているクラスタ同士を結合する
  3. 全ての観測データが1つのクラスタにまとまるまで、2.を繰り返す

結果の見方

階層的クラスタリングを実行すると、結果が「ヒートマップ+デンドログラム」として表示されます。

クラスタリング機能の使い方デモ

本コンテンツでは2種類のクラスタリングのうち、階層的クラスタリングを行います。
47都道府県の基本情報データを用いて、都道府県を複数の属性カラムによってグループ分けします。

※K平均法クラスタリングの実行方法についてはこちらをご覧ください。

サンプルデータ

本コンテンツで使用するデータはこちらからダウンロードしてください。
1行1都道府県のデータになります。

データの取り込みと前処理

都道府県データ.csvを選択し、「インポートの設定」ダイアログで「OK」を選択します。

「データを分析に追加」画面でデータを変換をクリックし、正規化を選択します。「挿入」をクリックすると、「正規化」ダイアログが表示されます。

「正規化」ダイアログで、以下を設定します。設定ができたら「OK」を選択してデータを取り込みます。

  • 選択したカラム:総面積_ha~幼稚園数
  • メソッド:0から1のスケーリング
  • カラム名の設定:カラム名の前に ’正規化: ’ を追加

テーブルを表示してデータを確認します。元のテーブルに正規化されたカラムが追加されていることが分かります。

階層的クラスタリングの実行

階層的クラスタリングを実行します。
新規ページを追加して、メニューバー「ツール」>「階層的クラスタリング」を選択します。

「階層的クラスタリング」の設定画面では、カラムの選択やクラスタリング設定の編集ができます。
まずカラムの設定を行います。「カラムの選択」をクリックします。

カラムは以下を設定します。設定できたら「OK」を押します。

  • 正規化:総面積_ha~正規化:幼稚園数

すると「階層的クラスタリング」の設定画面に戻ります。
次にクラスタローの「設定」をクリックします。「クラスタリング設定の編集」画面が表示されます。

「クラスタリング設定の編集」画面で以下を設定します。設定ができたら「OK」を押します。「階層的クラスタリング」設定画面に戻るため、再度「OK」を押して設定を完了します。

  • クラスタリングメソッド:UPGMA
  • 距離の計測:コリレーション
  • 並び替えの重み:平均値
  • 空の値の置換 - メソッド: カラムの平均値
  • 正規化 - メソッド:なし

設定が完了すると、デンドログラムとヒートマップが表示されます。

また、階層的クラスタリングを実行すると、「ローのクラスタID」というカラムが新たに追加されます。

テーブルで「ローのクラスタID」カラムが追加されていることを確認できます。

カラムの追加を確認後、テーブルを削除し、デンドログラム上の「プルーニングライン」を変更します。
「プルーニングライン」はドラッグ&ドロップで操作できます。右に移動させると、クラスタ数の変化に応じて「ローのクラスタID」カラムの固有値が増加します(下図ではフィルターパネルにて確認)。
※下図はプルーニングラインが#5になっているため、都道府県を5つにグルーピングしています。

ビジュアライゼーションを見やすくするため、調整します。
まず、ヒートマップのY軸に「ロー番号」の表示しかないため、都道府県名を表示させます。
Y軸に「都道府県」を追加します。追加すると、デンドログラムが表示されなくなります。

デンドログラムを再表示させるため、プロパティ>デンドログラムで「設定」の「更新」をクリックします。

するとデンドログラムが再表示されました。これで調整は完了です。

以上のように、クラスタリング機能を用いることで簡単にデータをグルーピングできます。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【統計分析】記事一覧に戻る
全記事一覧に戻る