2020/11/13

統計分析

相関性を一覧表示

このコンテンツでは、Data Relationshipsの機能を利用して、変数間の関係性を明らかにする方法について説明します。こちらの記事(散布図の作成方法と回帰線の引き方)では、さまざまな視点でデータを分析した結果、パラメータ間で多様な関係性がありそうだということがわかりました。

グラフの軸や色などを切り変えてみることで、変数間の関連性を把握できます。
実務においては、カラムが数百あるデータも珍しくありません。これらを1つずつ可視化して確認するのは業務効率という点からお勧めできません。そこで、統計的な手法を使って関係性の有無を確認します。

身体測定データについて

サンプルファイル

科学の道具箱というWebサイトがあり、数学や統計的なものの見方について理解を深めることができます。今回はこのサイトの体力測定データから「01.小・中学校体力測定データ」をダウンロードしてみましょう。
エクセル形式のファイルとなっているので、一度開いてデータの中身を確認してください。

このデータをSpotfireに取り込みます。
データの内容に関して、Spotfire画面左側のノートマーク「分析内のデータ」フライアウトより確認できます。小学校と中学校の男女に関する、さまざまな測定結果が含まれています。

Data Relationshipsで相関を一覧表示

データの中からパラメータ同士の相関関係を確認しましょう。 Data Relationshipsという分析機能を使用すれば、決定係数を利用して相関関係の高い順に並べてくれるので非常に便利です。

起動方法は「ツール」メニューから「Data Relationships」を選択します。

 

まずは、全測定項目間での相関関係を確認してみましょう。
「比較方法」は「線形回帰」を選択し、「選択したYカラム」と「選択したXカラム」に全てのカラムを設定してください。(「使用できるYカラム」でカラムを選び「追加」します。)

 

「OK」を押すと計算結果が表示されます。

結果は2つのグラフで表示されます。
上の表は、相関が高いペアのランキングが表示され、下に連動してペアの散布図が表示されています。
Data Relationshipsの結果表は、決定係数R2(Rsqカラム)の高い順に並んでいます。
当然ですが、握力の右と左の相関性が高いようですね。
傾きは0.92なので若干右の握力の方が強いことがわかります。これは右の握力が10kgのとき、左の握力は9.2kgになることを表しています。

相関性の高いペアの表示を変更

決定係数R2を見ることで相関の強さがわかりますが、この指標はあくまで目安であるため、分布を可視化して確認したほうが良いでしょう。

上の表のペア(青いカーソル)をクリックし移動させると、散布図の軸が変わります。
「握力右/左」の次に相関が高いのは「立ち幅跳びと50m走」のペアです。

このペアも関連ありそうです。この場合は立ち幅跳びの値が-20.95伸びると、50m走が1秒伸びます。つまり、立ち幅跳びが20センチ伸びると50mのタイムが1秒短くなるということです。
このように、マイナスの相関を持つ場合、「負の相関がある」といいます。その他のペアも一通り確認して見てください。
ちなみに、この散布図の軸の変更以外にも、色の変更やトレリス(格子)の設定ができます。試しにトレリスを利用して、男女別の散布図に分けてみましょう。

Spotfire画面左側のノートアイコン(「分析内のデータ」フライアウトボタン)の性別をクリックして散布図上にドラッグすると、アイコンが表示されるので、右から二番目にドロップします。散布図の決定係数などは自動的に計算されます。

相関性の再計算

「小学校と中学校を同じ条件で比較するのはおかしい」と考えた場合、それぞれ別に分析する必要があります。この場合はフィルター機能を使い、小学生のデータだけに絞り込みましょう。フィルターが表示されていない場合には、「表示」メニューの「フィルター」をクリックすると右側にフィルターが表示されます。

フィルターをかけることで、結果表に「データテーブルを更新」が表示されます。
結果表は小学校と中学校を一緒に分析した時のもので、現在のフィルター条件で計算したものとは異なります。その場合は「データテーブルを更新」を押すと再度集計されます。

小学校だけで見ると「立ち幅跳び・50m走」よりも「20mシャトルラン・ソフトボール投げ」の方が相関関係が強いことがわかります。
ただし、決定係数R2の値は0.49と低くなったので、別々に比べることで相関がなくなってしまいました。

フィルタやトレリス(格子)のリセット

一度フィルター条件とトレリス条件を外しておきます。
フィルターのリセットはフィルターメニューの「可視フィルタをリセット」アイコンをクリックしてください。

トレリスの外し方ですが、グラフ上で右クリックし、「プロパティ」を表示し、「トレリス」タブを選択します。「カラム」で「性別」が選択されていますので、一番下にある「削除」を選ぶことでトレリスを解除できます。

比較カラムを変更

機能紹介のために、パラメータの総当たりで相関性を確認しました。
体力測定データをみてみると、握力や立ち幅跳び、上体起こし等は基礎的な測定、「ソフトボール投げ」は総合的な測定に思えます。全身のバネを使わないとボールは遠くに飛ばないと考えられるためです。そこで、Y軸を「ソフトボール投げ」だけに絞り、基礎的な測定データの変数と比較してみましょう

既に実行した結果表の「計算の編集」アイコンをクリックすると、再度条件の変更ができます。

「選択したYカラム」を「ソフトボール投げ」のみ残し、あとは削除します。

OKを押すと指定条件で再計算されますので、ソフトボール投げに対して相関性が高いリストが表示されます。

再計算後はR2の数値も落ちてしまいました。一番高くて0.48です。
反復横跳びの0.34くらいまでは相関ありそうですが、握力や長座体前屈はソフトボール投げとの相関関係は低いようです。

まとめ

今回はSpotfireのData Relationshipsを利用して、身体測定のデータの中で「ソフトボール投げ」に対して、どの測定項目が一番影響があるのか調査しました。 結果として「20mシャトルラン」「立ち幅跳び」「50m走」「上体起し」「反復横とび」 が多少の相関があり、「握力」や「長座体前屈」は関係なさそうだということが簡単に把握できたかと思います。

次回は、今回の分析でわかった関連のある項目を元にソフトボールの飛距離を予測する方法をご紹介します。

TIBCO 事例・活用ノウハウなどお役立ち資料を無料でで配布中 ダウンロードはこちら

カテゴリー

【統計分析】最新の記事

【統計分析】記事一覧に戻る
全記事一覧に戻る