2020/12/21

統計分析

データを類似度でグループ化

このコンテンツでは、Spotfireに標準搭載されている分析手法K-means(K平均法)クラスタリングを利用して、データの類似性に基づきグルーピングを行う方法について説明します。デジタルカメラの売上データを使って、デジカメ機種ごとに異なる売上の傾向をカテゴリ化します。

なお、本コンテンツで利用したSpotfireのバージョンは10.10/11.4です。ご利用環境によって、一部画面構成が異なりますので、ご了承ください。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

サンプルファイルについて

サンプルファイルの読み込み

本コンテンツで利用するサンプルファイルは、「デジカメデータ.xlsx」を利用します。デジタルカメラの売上に関するエクセル形式のデータです。こちらからダウンロードしてください。

このファイルをSpotfireにあらかじめ読み込んでください。以下のようにテーブルが読み込まれます。

クラスタリングとは

「クラスタリング(Clustering)」とは、類似度をもとに、似ているもの同士をグルーピングする手法です。分割された各グループを「クラスタ(Cluster)」と呼びます。

クラスタリングにも様々な方法が存在しますが、大枠では「非階層クラスタリング」と「階層クラスタリング」の2つに分類されます。両手法ともに、分析者がクラスタ数Kを決定する必要があります。反対に、分類するクラスタ数を事前に決めるか事後的に決めるかが、大きな違いの1つです。

  • 非階層クラスタリング:クラスタリング実施前に、分析者はクラスタ数Kを決める。
  • 階層クラスタリング:クラスタリング実施後、分析者はクラスタ数Kを決める。

非階層クラスタリングの中でも、最もシンプルな手法がK-means(K平均法)です。今回はこの分析手法を利用します。詳しい説明は、様々なドキュメントがネット上で公開されているため、ここでは割愛します。
なお、Spotfireのツールメニューを選択すると「K平均法クラスタリング」と「階層クラスタリング」という2つの分析メニューがあり、両方を標準搭載の機能で利用できます。

事前準備:デジカメ機種別売上ラインチャートの作成

クラスタリングを実行する前に、クラスタリングを行う対象の売上データを準備します。 ラインチャートを利用して、年月の売上推移を可視化します。
Spotfire画面左の「ビジュアライゼーション タイプ」フライアウトから、「ラインチャート」を選択します。

グラフは以下のように設定します。

  • 縦軸:売上額 集計軸は「Sum(和)」
  • 横軸:年月(四半期)

次のグラフのように、月ごとに売上推移が表示されます。

次に、このグラフを機種別のグラフに分割します。

グラフ右側の凡例(レジェンド)項目の中から、「線の基準」のプルダウンを選択し、「デジカメ機種」を選択してください。デジカメ機種ごとの売上推移のグラフとなりました。

K-meansクラスタリングの実行

K-meansクラスタリングを実行します。「ツール」メニューから、「K平均法クラスタリング」を選択して下さい。
K平均法クラスタリングのダイアログが表示されます。

「距離の計測」項目では、次の2つを選択できます。

  • コリレーションの類似性
  • ユークリッド距離

「コリレーションの類似性」を選択すると、ラインチャートの形が似ているものをグルーピングします。

ユークリッド距離では、下記図のように、観測データ間の距離をもとにライン間の類似性を決めてグルーピングを行います。

詳しくはSpotfireのユーザガイドを確認ください。今回は売上推移の傾向が似ている機種同士をクラスタリングするため、「コリレーションの類似性」を選択します。

「クラスタの最大数」は、クラスタ数を指定します。クラスタ数は分析者側で決定する必要がありますので、ビジネス目的やデータの分布を確認しながら、場合によってはクラスタ数を変えて分析を繰り返すのが良いと思います。今回は10に設定し「OK」をクリックします。

クラスタリング結果

分類結果は下記画面のとおりです。0-9のクラスタごとに、所属する機種の売上推移が可視化されています。

クラスタの傾向を確認するために、グラフ右側の凡例(レジェンド)にある「線の基準」の設定を削除してクラスタ平均を表示します。それぞれのクラスタで、異なる売上のトレンドがみえてきます。

クラスタ結果の活用

元のテーブルを表示してください。カラムの一番右側に「K平均法クラスタリング」という名称の新しいカラム(=分類結果)が追加されています。

この情報をもとに、各クラスタのメーカ別売上比率を可視化します。
円グラフを選択し、以下のように設定します。

  • 色の基準:メーカー
  • 扇形サイズの基準:Sum(売上)

また、Spotfire画面左のノートマーク「分析内のデータ」をクリックすると、「K平均法クラスタリング」カラムがあります。「K平均法クラスタリング」を円グラフ上にドラッグアンドドロップするとし、トレリス表示します。

クラスタごとに、メーカーの売上比率を可視化できました。このように、クラスタリングの分類結果を利用して、別角度からデータを分析できます。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【統計分析】記事一覧に戻る
全記事一覧に戻る