2020/12/21
統計分析
このコンテンツでは、Spotfireに標準搭載されている分析手法K-means(K平均法)クラスタリングを利用して、データの類似性に基づきグルーピングを行う方法について説明します。デジタルカメラの売上データを使って、デジカメ機種ごとに異なる売上の傾向をカテゴリ化します。
なお、本コンテンツで利用したSpotfireのバージョンは10.10/11.4です。ご利用環境によって、一部画面構成が異なりますので、ご了承ください。
本コンテンツで利用するサンプルファイルは、「デジカメデータ.xlsx」を利用します。デジタルカメラの売上に関するエクセル形式のデータです。こちらからダウンロードしてください。
このファイルをSpotfireにあらかじめ読み込んでください。以下のようにテーブルが読み込まれます。
「クラスタリング(Clustering)」とは、類似度をもとに、似ているもの同士をグルーピングする手法です。分割された各グループを「クラスタ(Cluster)」と呼びます。
クラスタリングにも様々な方法が存在しますが、大枠では「非階層クラスタリング」と「階層クラスタリング」の2つに分類されます。両手法ともに、分析者がクラスタ数Kを決定する必要があります。反対に、分類するクラスタ数を事前に決めるか事後的に決めるかが、大きな違いの1つです。
非階層クラスタリングの中でも、最もシンプルな手法がK-means(K平均法)です。今回はこの分析手法を利用します。詳しい説明は、様々なドキュメントがネット上で公開されているため、ここでは割愛します。
なお、Spotfireのツールメニューを選択すると「K平均法クラスタリング」と「階層クラスタリング」という2つの分析メニューがあり、両方を標準搭載の機能で利用できます。
クラスタリングを実行する前に、クラスタリングを行う対象の売上データを準備します。 ラインチャートを利用して、年月の売上推移を可視化します。
Spotfire画面左の「ビジュアライゼーション タイプ」フライアウトから、「ラインチャート」を選択します。
グラフは以下のように設定します。
次のグラフのように、月ごとに売上推移が表示されます。
次に、このグラフを機種別のグラフに分割します。
グラフ右側の凡例(レジェンド)項目の中から、「線の基準」のプルダウンを選択し、「デジカメ機種」を選択してください。デジカメ機種ごとの売上推移のグラフとなりました。
K-meansクラスタリングを実行します。「ツール」メニューから、「K平均法クラスタリング」を選択して下さい。
K平均法クラスタリングのダイアログが表示されます。
「距離の計測」項目では、次の2つを選択できます。
「コリレーションの類似性」を選択すると、ラインチャートの形が似ているものをグルーピングします。
ユークリッド距離では、下記図のように、観測データ間の距離をもとにライン間の類似性を決めてグルーピングを行います。
詳しくはSpotfireのユーザガイドを確認ください。今回は売上推移の傾向が似ている機種同士をクラスタリングするため、「コリレーションの類似性」を選択します。
「クラスタの最大数」は、クラスタ数を指定します。クラスタ数は分析者側で決定する必要がありますので、ビジネス目的やデータの分布を確認しながら、場合によってはクラスタ数を変えて分析を繰り返すのが良いと思います。今回は10に設定し「OK」をクリックします。
分類結果は下記画面のとおりです。0-9のクラスタごとに、所属する機種の売上推移が可視化されています。
クラスタの傾向を確認するために、グラフ右側の凡例(レジェンド)にある「線の基準」の設定を削除してクラスタ平均を表示します。それぞれのクラスタで、異なる売上のトレンドがみえてきます。
元のテーブルを表示してください。カラムの一番右側に「K平均法クラスタリング」という名称の新しいカラム(=分類結果)が追加されています。
この情報をもとに、各クラスタのメーカ別売上比率を可視化します。
円グラフを選択し、以下のように設定します。
また、Spotfire画面左のノートマーク「分析内のデータ」をクリックすると、「K平均法クラスタリング」カラムがあります。「K平均法クラスタリング」を円グラフ上にドラッグアンドドロップするとし、トレリス表示します。
クラスタごとに、メーカーの売上比率を可視化できました。このように、クラスタリングの分類結果を利用して、別角度からデータを分析できます。
前の記事
様々なデータ型間の相関【統計分析】最新の記事