2020/10/13

チュートリアル

棒グラフの作成方法

このコンテンツでは、棒グラフの作成方法について説明していきます。
なお、本コンテンツで利用したバージョンはSpotfire 10.10/11.4です。ご利用環境によって、一部画面構成が異なる可能性がありますので、ご了承ください。
前回の記事(新規データの取り込み)で読み込んだサンプルファイル「Baseball.txt」からどの選手に一番給料が支払われているのか、データの傾向を可視化します。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

新規ページからグラフを作成

サンプルファイルの読み込み

本コンテンツで利用するサンプルファイルは、こちらからダウンロードしてください。

Baseball.dxpファイルをダブルクリックすると、Spotfireが起動します。
Baseball.dxpは、野球に関するデータを可視化したファイルとなっており、2ページ構成になっています。最初のページはカバーページです。

今回のデータでは「Salery」カラムが年収ですので、どのような偏りがあるのか見ていきましょう。

新規ページの作成

新規ページを作成します。左下「Getting Started」タブの右にある「+」ボタンをクリックします。

以下の新規ページが立ち上がりました。

棒グラフを作成

画面中央の「ビジュアライゼーションから開始する」をクリックし、「棒グラフ」を選択します。

棒グラフが表示されました。最初の軸はSpotfireが自動的に決めてくれます。

この場合は横軸が「Position」、縦軸が「ローの数」です。
LFポジジョンの選手が一番多く50名程度、次に2Bポジションの選手が多く35名程度いることがわかります。

縦軸の変更

選手の人数を見ていても面白くないので、年収を比較してみましょう。
縦軸の(ローの数)と書いてある上の▶をクリックすると軸を選択できます。
ここで「Salary」を選択してみましょう。

これで縦軸が年収になりましたので、ポジション別の年収合計になりました。

選手の人数が2番目に多かった2Bポジションですが、年収合計は一番少ないことがわかります。

集計方法の変更

年収の平均を見てみましょう。
「Sum(Salary)」の上にある ▶をクリックすると、先ほどと同じようにカラム一覧が表示されます。一番上に集計方法が選択されています。
現在は「Sum(和)」になっていますので、「Avg(平均)」に変更します。

2Bのポジションの平均年収は、他のポジションと比較しておよそ半分程度であることがわかります。

元に戻す

今度はどのTeamが一番給料を支払っているのか見てみましょう。
一度縦軸をSum(Salary)に戻します。ワンステップで戻るのでツールバーの「元に戻す」が便利です。

「Avg(平均)」への変更が元に戻り、「Sum(和)」になったと思います。

横軸の変更

横軸をTeamに変更し、どのTeamが一番給料を支払っているのか確認します。
横軸のPositionと書いてある右の▼を選択すると縦軸と同じように一覧が表示されますので、Teamを選択します。

値が飛びぬけて多いTeamがあるようです。しかし、横軸のラベルがつぶれているため、どのTeamなのか確認できません。このような場合は画面を広げるか、マウスを乗せると項目を確認できます。一番給料を支払っているのはNY Yankeesでした。

マークによるデータの確認

一番給料を支払っているNY Yankeesの中でも、どの選手が一番給料を支払われているのでしょうか。
内容を確認したい場合はマークを使います。棒グラフのバーをクリックするか、左クリックでドラッグにより範囲選択することにより、マークと呼ばれる状態になり、その範囲のデータがハイライトされます。

ハイライトされたデータはDetais-on-Demandに表示されます。
Details-on-Demandが表示されていない場合は、ツールバーの「表示」-「Details-on-Demand」でページ上に表示されます。

Salaryカラムのヘッダーをクリックすると、給料別にソートすることができます。
Alex RodorigezやDerek Jeter選手などに給料が多く支払われていることがわかります。

カテゴリの変更

先ほどはPosition別にSalaryを比較しましたが、今回はTeam別に比較しています。
ちなみにデータには連続型データと離散型データの2種類あります。連続型データは数値型のもので、身長や体重などが該当します。Salaryは連続型データに該当します。Spotfireでは連続データと呼びます。

離散型データは男女や好きなスポーツなど、文字列型のデータです。男性は1、女性は2など必ずしも文字列とは限りませんが、中間の値がないデータのことです。
TeamやPositionは離散型データに該当します。Spotfireではカテゴリデータと呼びます。

Team別にSararyを比較してきましたが、さらにPosition別に深堀して比較してみましょう。
フィルターでPositionごとに絞り込む方法と、Positionごとに色を変える方法の2種類があります。

フィルターによるデータの絞り込み

LFポジションだけに注目してみましょう。
画面右側に「フィルターパネル」があります。データにフィルターをかけて、範囲を絞り込みます。

フィルターパネルを下にスクロールして「Position」を表示してください。
チェックボックスになっているので、チェックを外すことでデータ範囲を変更できます。
LF以外のチェックボックスを外してみると、Bostonが給料をたくさん払っていそうです。
それ以外のPositionに関しても調べてみてください。

全データ278人の内、53人が表示されています。

右下にどれくらいのデータが絞りこまれているのか表示されています。フィルターをかけたことを忘れて分析してしまうことがありますので、こちらを確認しながら分析を進めていきましょう。

フィルターリセットする場合はツールバーからフィルターリセットボタンをクリックします。

日本人選手もデータの中に含まれています。
フィルターでイチロー選手や松井選手だけに絞り込むことも可能です。正規表現が使えますので、Player Name に*matsui* or *ichiro* と入力し、イチロー選手や松井選手を選択してみてください。

色の変更

再度フィルターリセットをかけて全データを表示しましょう。
色の基準を「Position」に変更すると、Teamの中でも特に給料が多く支払われているPositionがわかります。

まとめ

このように、棒グラフだけでもさまざまな知見が得られることがわかります。
重要なのは報告のための可視化ではなく、気づきを得るための可視化が大事だということです。

サマリーされたデータを確認すると言う意味では、線グラフでも円グラフでも同じです。ただ、状況によってはサマリーされていないローデータを可視化することが重要になってくる場合もあるかと思います。

次は、散布図でデータを確認してみましょう。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

TIBCO Spotfire®は分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【チュートリアル】記事一覧に戻る
全記事一覧に戻る