2023/09/28

アドバンスド

ダッシュボード活用や分析に役立つTips集①

※本記事は9/28開催セミナー「TIBCO Spotfire活用セミナー〜 ダッシュボード活用や分析に役立つTips集① ~」で紹介した内容です。

このコンテンツでは、上記セミナー内で紹介したデモ内容をハンズオン形式でお試しできます。本コンテンツで利用したバージョンは、Spotfire Analyst 12.0です。ご利用環境によって、一部画面構成が異なる場合がありますので、ご了承ください。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

デモの流れ

  • データのグルーピング
    ① マーク
    ② タグ・リスト
    ③ K平均法クラスタリング
  • 可視化・分析履歴の保存
    ④ ブックマーク
    ⑤ コラボレーション

サンプルデータ

本コンテンツで使用するデータはこちらからダウンロードしてください。

  • 野球成績データ_2015.xlsx:67行×28列 - 2015年NPB個人成績(各リーグ本塁打数の上位30名
  • 野球成績データ_2015.xlsx のイメージ

ハンズオン

データの取り込み

Spotfireにベースとなるデータを取り込みます。Spotfire画面左側の⊕ボタンから「ローカルファイルを参照」を選択し、野球成績データ_2015.xlsx を開きます。

①マーク

グラフ上のマーカーやセグメントをマークして、カラムの値をグルーピングできます。集計だけでなく、表記統一や名寄せにも使えます。

今回は「リーグ」カラムの表記統一に利用します。
ビジュアライゼーション タイプから棒グラフを選択します。横軸(カテゴリの軸)に「リーグ」を選択すると、下図のように「リーグ」カラムの固有値が3つあることがわかります。「セ・リーグ」と「セリーグ」は本来同じ固有値なのに、表記が統一されていないため、別々に集計されています。

表記を統一するため、マークによるデータのグルーピングを行います。
セ・リーグとセリーグの棒グラフをマークしたうえで、右クリックで「マークされたカテゴリからグループ化」を選択します。

「マークされたカテゴリからグループ化」ダイアログの「グループに与える名前」に、表記を統一したいグループの固有値名を入力します。ここでは「セ・リーグ」とします。

すると、「リーグ (グループ化)」という新しいカラムが作成され、横軸に適用されます。
固有値は「セ・リーグ」と「パ・リーグ」の2つになり、表記を統一できました。

②タグ・リスト

グラフ上でマークしたマーカーやセグメントをタグやリストに追加することで、データのグルーピングやキャプチャに利用できます。
タグはデータテーブルのカラムとして追加され、他のカラムと同様に軸やトレリス、フィルターなどに利用できます。一方で、リストは指定したカラムの値を識別子としてキャプチャし、データのマークやタグの作成に利用できます。

まず、散布図の分布から気になる選手をタグ付けしていきます。
ビジュアライゼーション タイプから散布図を選択し、下記を設定します。

  • X軸:打率
  • Y軸:本塁打
  • 色の基準:リーグ(グループ化)
  • ラベル タブ > ラベルの基準:選手

下図のような流れで複数のマーカーをマークします。このとき、軸ラベルを選択してドラッグ&ドロップすると正確にマークできます。

  • X軸「打率」の0.3以上をマーク
  • 上記の状態で、Y軸「本塁打」の30以上をCtrl+マーク

メニュー内「表示」から「タグ」を選択します。画面左にタグパネルが出現します。
パネル上部メニューの左から2番目「新規タグ コレクション」から、下記を設定して、OKを押します。

  • 名前:打率&本塁打
  • 新規 > タグ名:3割または30本

新しいタグコレクションとタグが表示されます。
「3割または30本」タグを選択したうえで、パネル上部メニューの左端「マークされたローにタグを添付」をクリックします。
※クリック前に対象のマークができていることを確認してください。

正常にタグ付けできている場合、下図のように「3割または30本 (12)」「タグなし (55)」と()内にローの数が表示されます。

散布図の色の基準に「打率&本塁打」タグを選択します。

このように、作成したタグは新しいカラムとしてデータテーブルに追加され、他のカラムと同様に利用できます。
※タグはデータテーブルの保存方法を「リンク」とした場合、デフォルトの設定では、再度分析ファイルを開いた際にタグが外れてしまいます。タグ状態を保持したい場合、下記の設定をする必要があります。

  • データ > データテーブルのプロパティ > 全般 タブ:キーカラム(ローを一意に識別するカラム)を指定

次に、作成したタグから階層構造を持つリストを作ります。
メニュー内「表示」から「リスト」を選択します。画面左のタグパネルの上にリストパネルが出現します。

まず、リストとしてキャプチャしたい識別子を選びます。
今回は「選手」カラムとします。

散布図上で全データをマークします。
パネル上部メニューの左端「マーク済みからの新規リスト」から、下記を設定して、OKを押します。

  • リストのグループ化:打率&本塁打(先ほど作成したタグ)

正常にリストが作成できた場合、下図のように「3割または30本 (12)」「タグなし (55)」と()内にローの数が表示されます。

リストはタグとは異なり、階層構造で作成したり、重複行を追加することができます。
今回は「3割または30本」を親リストとして、「3割以上」「30本以上」「3割かつ30本」の3つの子リストを作成します。

まず、散布図のX軸が0.3以上(打率3割以上)のマーカーをマークします。
リストパネルの「3割または30本」を選択したうえで、その上で右クリックし、「マーク済みからの新規リスト」をクリックします。下記を設定して、OKを押します。

  • 名前:3割以上

同様に、散布図のY軸が30以上(本塁打30本以上)のマーカーをマークします。

リストパネルの「3割または30本」を選択したうえで、その上で右クリックし、「マーク済みからの新規リスト」をクリックします。下記を設定して、OKを押します。

  • 名前:30本以上

最後の「3割かつ30本」も同様に散布図からマークしてもリストを作れますが、データ数が多い場合などはマークのミスなどが起こる場合があります。そのため、ここでは「リスト ロジックからの新規リスト」を利用します。
リストパネルの「3割または30本」を選択したうえで、その上で右クリックし、「リスト ロジックからの新規リスト」をクリックします。下記を設定して、OKを押します。

  • 名前:3割かつ30本
  • 使用するリスト:3割以上、30本以上 にチェック
  • 項目の表示を含める:すべてのリスト内(AND)

作成した「3割かつ30本」リストを親リストである「3割または30本」の子リストに移動します。「3割かつ30本」をドラッグして「3割または30本」の下にドロップします。

「3割かつ30本」リストをダブルクリックすると、下図のように対象データがマークされ、パネル下に対象データの識別子が表示されます。
※画像はタグパネルを閉じています。

このように、タグからリストを作成したり、階層構造でリスト化してデータを管理できます。
このリストは複数の分析ファイル間で利用できます。ただし、複数のアプリを立ち上げて同時編集することはできず、読み取り専用モードになります。最初に開いた分析ファイルのみでリストの新規作成や編集ができます。

③K平均法クラスタリング

予め分割数を決めた上で、データの類似度をもとに、統計的に似たもの同士をグルーピングできます。分類には時系列のトレンドパターンの分類とカラムの属性パターンによる分類の2種類があります。
Spotfireで利用可能なクラスタリングの詳細はこちらでご確認ください。

今回は、カラムの属性パターンによる分類で、成績から選手を分類します。
まず、ビジュアライゼーション タイプからラインチャートを選択し、下記を設定します。

  • X軸:(カラム名)
  • Y軸:安打、二塁打、本塁打、打点、三振、四球、盗塁
  • 線の基準:選手
  • 表示 タブ:「マーカーを表示」にチェック

メニュー内「ツール」から「K平均法クラスタリング」を選択して、下記の設定でOKを押します。

  • 距離の計測:ユークリッド距離
  • クラスタの最大数:4

実行されると、トレリスの基準にK平均法クラスタリングで分割されたグループが自動追加されます。グループで色分けすると下図のようになります。

ラインチャートの波形をみると、各グループ間で「三振」と「安打」の組み合わせに違いがありそうとわかります。そこで、散布図で深掘りしてみます。

散布図を作成し、下記を設定します。

  • X軸:安打
  • Y軸:三振
  • 色の基準:K平均法クラスタリング

散布図をみると、この4つのグループは、「三振」と「安打」の組み合わせにより、ある程度グループ分けがされていることがわかります。

このようにラインチャートをもとに、K平均法クラスタリングを使ってデータのグルーピングができます。

④ブックマーク

ブックマークを使うと、ある時点での分析状態をグラフ単位でキャプチャして、その時点でかけた設定を保存することで、キャプチャした分析状態に戻せます。
ブックマークの詳細はこちらでご確認ください。

今回は、先ほどのK平均法クラスタリングの2回の実行結果をキャプチャします。
メニュー内「表示」または右上部メニュー左から3番目「ブックマーク」を選択します。ブックマークが画面右上に出現します。

新規ブックマークの名前に「クラスタ数 - 4」と入力し、+ボタンをクリックすると、この時点の分析状態がキャプチャされます。

次に、ラインチャートの下記設定を削除します。

  • トレリスの基準:K平均法クラスタリング
  • 色の基準:K平均法クラスタリング

メニュー内「ツール」から「K平均法クラスタリング」を選択して、下記の設定でOKを押します。

  • 結果カラムのオプション:新規作成
  • 距離の計測:ユークリッド距離
  • クラスタの最大数:8

新規ブックマークの名前に「クラスタ数 - 8」と入力し、+ボタンをクリックすると、この時点の分析状態がキャプチャされ、新たにブックマークが追加されます。

これにより、クラスタ数を8にした際の実行結果と、4にした際の実行結果を素早く比較したり、前の結果に戻って深掘り分析につなげることができます。

⑤コラボレーション

コラボレーションは、コメントだけでなくユーザー間の対話に利用できます。また、マークやフィルター後に投稿・応答することで、コメントに関連した分析状態を復元できます。

まず、ブックマークの「クラスタ数 - 4」を選択して、分析状態を復元します。
散布図の下に、新しく棒グラフを作成して、4つのグループを深掘りします。

  • カテゴリの軸:K平均法クラスタリング
  • 値の軸:Avg(打率)、Avg(OPS)
  • 表示 タブ:「並列表示」にチェック
  • 値の軸 タブ:デュアル スケールにチェックし、「Avg(OPS)」を右のスケールに変更

メニュー内「表示」または右上部メニュー左から2番目の「コラボレーション」を選択します。コラボレーションが画面右上に出現します。

棒グラフをみてわかったことをコラボレーション機能で投稿します。
+ボタン付きの吹き出しをクリックすると、画面上にアイコンが出現します。棒グラフの上で「平均打率もOPSもグループ4が最も高い。」とコメントを書き、投稿をクリックします。

投稿したコメントに対して、応答します。ここではデモとして自身の投稿に対して応答しますが、分析ファイルを共有することで、ユーザー間で投稿や応答をしたり、やり取りを履歴として確認することができます。

投稿や応答時には、マークやフィルターの状態を保存できます。
ここでは、下記を設定したうえで、応答をクリックします。

  • フィルター:K平均法クラスタリングの1と4をフィルターの対象に選択
  • 応答内容:グループ1と4に絞るとより顕著な結果が確認できます。
  • 「分析の状態を応答に含める」にチェック

応答内容をクリックすると、フィルターの状態を復元できます。

このように、コラボレーションはコメントやメモ、ユーザー間の対話に利用できます。

以上、Spotfire活用セミナー「ダッシュボード活用や分析に役立つTips集①」のデモ内容になります。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【アドバンスド】記事一覧に戻る
全記事一覧に戻る