2020/10/13

チュートリアル

散布図の作成方法と回帰線の引き方

このコンテンツでは、散布図の作成方法について説明していきます。なお、本コンテンツで利用したバージョンは10.10/11.4です。ご利用環境によって、一部画面構成が異なる可能性がありますので、ご了承ください。

前回の記事(棒グラフの作成方法)は棒グラフを使用して年収のサマリーをTeamやPosition別に比較しました。しかし、サマリーではなく個別の選手に対して注目が必要な場合もあります。そのようなときは散布図が便利です。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

散布図を使用して傾向と外れ値を見る

サンプルファイルの読み込み

本コンテンツで利用するサンプルファイルは、こちらからダウンロードしてください。
Baseball.dxpファイルをダブルクリックすると、Spotfireが起動します。

散布図の作り方

ビジュアライゼーションタイプのアイコンから「散布図」をクリックします。

散布図が作成されました。
散布図は主にX軸とY軸、2つのパラメータ間での相関を見るために使用します。

作成した散布図は自動的にさまざまな設定がされています。
X軸がBatting Average(打率)、Y軸がOn Base Percentage(出塁率)です。打率が高ければ出塁率も高い傾向にあるため、この2つのパラメータには相関性がありそうです。

軸の変更

そのほかのパラメータ間に関連性があるか見ていきます。例えばホームランを打つ人はヒットも打っているのでしょうか。

横軸のBatting AverageをHitsに変更し、縦軸のOn Base PercentageをHome Runsに変更します。

Home Runs 対 Hits

このような散布図になりました。それほど相関性はなさそうに見えます。
では、Hitsと相関の高いパラメータは何でしょうか。横軸を変えてみるとAt Bats(打席)が高そうです。

Hits 対 At Bats

打席にたくさん立てば、ヒットも増えるということです。これは確実に相関がありそうです。
先ほどから「相関」のある・なしに言及していますがこれは個人の感性です。人によってはヒットとホームランも相関があるように見えるかもしれません。

では、相関性を客観的に見るにはどうすればよいでしょうか。

一般的には傾向線を引いて確認します。チャートの右上にマウスを持っていくと「プロパティ」と呼ばれる歯車のアイコンがあります。こちらをクリックしてください。

「プロパティ」メニュー画面が表示されますので、「線およびカーブ」を選択して「回帰直線」をチェックします。

このように回帰直線が引かれました。

回帰直線の描き方

回帰直線は、マーカーとの縦の距離dを2乗したものの合計が最小となるような線を選択することで算出されます。(最小二乗法)

さて、回帰直線を引いただけだと、どの程度相関性があるかわからないのでラベルを表示します。
再度プロパティの「線およびカーブ」を開いて、回帰直線を選択し、「ラベルおよびツールチップ」をクリックします。

こちらで表示する項目を選択できます。傾きbと回帰のR2をチェックしてください。

ラベルが表示されました。
bは傾きなので、打席に対してヒットを打つ確率は0.3、つまり打率は3割ということです。

R2が重要なのですが、これは決定係数と呼ばれ、XとYがどれくらい相関性があるかという指標になります。基準値は場合によって異なりますが今回は0.9を超えているのでかなり相関性は高いです。
また、この決定係数やbは軸を変更すると自動的に再計算されます。

給料をグラフに盛り込む

さて、打席とヒットの間に高い相関性が見られることは分かりました。
先ほど回帰直線を引きましたが、これは全体を元に判断した平均ラインです。つまり、打つ人も打たない人もいるが、全体の平均として3割ということです。

回帰線より上の人たちは平均よりも打つ選手たち、下の人たちは打たない選手たちです。

ここで「打率が良いグループは、給料も高いのだろうか?」という疑問が出てきます。

色で給料を示す

グラフの右「レジェンド」と呼ばれるエリアに「色の基準」という項目があります。ここではPositionになっていますが、Salaryに変更してください。

色でSalaryが示されるので、色の濃い選手は高給取りです。全体的に打率が良い選手が給料が高い訳ではなさそうです。

リーグ別に表示

母集団により違いがあるのかもれません。メジャーリーグでは「アメリカンリーグ」「ナショナルリーグ」という2つのリーグがあるので、それぞれ別で表示してみます。
フィルターを使用してもいいですが、ここは両者を比較したいため、トレリスという機能を使います。左の「分析内のデータ」の中からLeagueの変数をグラフの上にドラッグし、右から2つ目のアイコンの上でドロップします。
※トレリスについてこちらをご確認ください。

下記のようにアメリカンリーグとナショナルリーグが別々に表示されました。
決定係数やbの値もリーグ別に再計算されます。アメリカンリーグの方が打率が高く、打席数も全体的に多く、また給料の高い選手も目立ちます。

また、特に色が濃い選手は誰なのか調べたい場合はラベルを使用して選手名を表示することができます。
「プロパティ」を開き「ラベル」タブを選択、「ラベルの基準」にPlayer Nameを選択してください。また、ラベルの表示は「マークされたロー」にします。

これで選択されたマーカーは選手名が表示されるようになります。
Ctrlキーを押しながら複数選択もできます。特に給料が高そうな選手をクリックしてみます。
アレックスロドリゲス選手は給料も高く、打率も高いことがわかります。逆にサミーソーサ選手は給料のわりに打席も少なく打率も悪いことがわかります。

もし、あなたがスカウトマンだったら、どの選手がお得でしょうか?
一つの考え方として、打率が良くて(回帰線より上にある)給料も高くない(色が濃くない)選手がお得だと考えることができます。

さて、これで打率と給料の関係をリーグ別に見ました。
この散布図は選手別に作成されているため、プロットは一人一人の選手です。先ほどアメリカンリーグの方が打席も多く給料も高いという仮説を出しましたが、これは正しいのでしょうか。チーム別に比較してみたいと思います。

散布図を集計モードで表示

グラフの右のレジェンドにある「マーカーの基準」を使います。
最初は「ロー番号」になっていると思いますが、これは取り込まれている行ごとにマーカーを表示するという意味です。チーム別に表示したければ、この設定を「Team」に変更します。

横軸と縦軸がSum表記に変わっています。Team別にAt BatsとHitsが合計で集計されています。

Sum(Hits) 対 Sum(At Bats)

合計の状態だと、所属選手が多いチームが左上にプロットされてしまいます。
そこで、平均を見ます。横軸と縦軸をクリックすると一番上に集計が選択できるようになっているので、SumからAvgに変更してください。

これで両方の軸が平均で表示されるようになりました。
ちなみに回帰線も再計算されますが、この場合集計されたチームを元に計算され、先ほどと結果が異なりますので、注意してください。

プロットサイズをゲーム数に

プロットのサイズをゲーム数に設定しましょう。
ゲーム数が多いほどプロットが大きくなるように設定すれば、ゲーム数を盛り込めます。

レジェンドの「サイズの基準」にGame PlayedのAvgを設定してください。
これでゲーム数が多い場合、プロットサイズが大きくなります。やはりアメリカンリーグの方がゲーム数が多いようです。

プロットのサイズを少し大きくした方がわかりやすいです。プロパティの「サイズ」で「マーカーのサイズ」を大きくします。

だいぶわかりやすくなりました。さらに、ラベルもTeam表示するように変更します。

これで散布図の中にリーグ別に、チーム別、ヒット数・打席・サラリー・試合数を盛り込むことができました。

まとめ

このように一つのグラフ内に複数のパラメータを盛り込むことで立体的な洞察を得ることができます。
グラフの軸や色などを切り変えて見ることで、関連性の有無も大体分かると思います。

探索的分析/原因分析の領域で
高い評価と実績
TIBCO Spotfire

Spotfireは分析に必要な機能を単一製品でカバーするビジュアルアナリティクスツールです。

【チュートリアル】記事一覧に戻る
全記事一覧に戻る