散布図とは?
作り方からビジネスの利用例を解説
散布図は、2つのデータの関係を視覚的に表すグラフです。横軸と縦軸にそれぞれデータを置き、点で表します。データの傾向や関係性を簡単に理解でき、科学の分野だけでなく、ビジネスにおいても異常検知・影響・相関・パターン・傾向・関係性など新しい発見につなげることができます。
散布図とは?
散布図とは、2つの変数間の関係を視覚的に表現するためのグラフです。通常、横軸(x軸)と縦軸(y軸)に1つずつ変数をとり、その変数の値に対してグラフ上にプロットされます。散布図は、データの関係性や傾向を理解するのに非常に便利なグラフです。
散布図の起源ははっきりしませんが、現代の散布図は17世紀に作られたルネ・デカルトの直交座標系に基づいています。散布図は科学の分野で多く使われており、その大半は科学雑誌や出版物で使われています。 散布図は、統計グラフの歴史の中で最も多用途で有用な発明の一つと言われています。これは大げさかもしれませんが、散布図は複雑なデータを整理して、意味のあるものにします。散布図は単なる可視化ツールではなく、発見のためのツールなのです。
散布図の機能
他のグラフやチャートと同様、散布図にはX軸とY軸があります。Xは独立変数の水平線で、Yは従属変数の垂直線です。両方の軸に均等な目盛りが付けられ、2つの座標の交点を表す点にマークまたは点が付けられます。
散布図には他のパターンもあります。
- 線形または非線形:データポイントを通して直線的な相関が形成されることもあるが、非線形相関は曲線的な関係を示すこともある。
- 相関関係の強弱:相関関係が強ければ強い程、点と点は近くなり、逆に関係が弱ければ点は広がります。
こういった関係や傾向を明確に示すために、多くの散布図では傾向線を利用します。傾向線はトレンドの方向と関係の強さを強調するためにグラフ上に引かれます。
散布図のベストプラクティス
散布図がデータを歪めることなく、きれいに情報を表示するためのベストプラクティスを紹介します。
Y軸はゼロから始める
データをより正確に表現するために、スケールを伸縮させる必要がある場合もありますが、それは稀です。伸縮させる必要があるかどうかは非常に慎重に判断してください。
スケールを両方の軸に均等に分布させる
これは歪みがないことを意味します。
外れ値について慎重に考える
外れ値が正しくないと疑われる理由がある場合や、結果に価値がない場合は、外れ値を除外するのが賢明かもしれません。
データや変数は少ないより多い方がいい
他のグラフと異なり、散布図はデータや変数を多く含める方がよい場合が多いです。正しく行われれば、データが多くても混乱しません。ドットの大きさや色に変化を加えることで、関連するデータを分かりやすく含めることができます。
傾向線を使う
傾向線は手動で追加することもできますが、一般的にはソフトウェアによってプロットされます。傾向線を引くことで、データのトレンドを非常に明確にするのに役立ちます。ただし、2本以上の傾向線は混乱を招く可能性があるので、引かないようにしましょう。
散布図を使う場面
科学的な研究以外にも、ビジネスにおいて散布図が使われる場面はいくつかあります。
- 異常検知のため
- ある変数が別の変数にどのように影響するかを見るため
- 相関、パターン、傾向、関係性を見るため
たとえば、不動産業者は、家の広さと価格の関係性を知りたいと思っているかもしれません。この場合の散布図では、立地やいつリフォームしたか、庭の広さなどのすべての変数を表示することは難しいですが、それでも買い手や売り手にとって、市場の動向や、その家が市場における他の家と比較したときに、どこに位置するかという目安を与えてくれます。
また、ビジネスでは、売上高と他の変数との間に関係性があるかを把握したいでしょう。天候は売上に影響を及ぼすのか?曜日は?ラックに掛けられた服の数は?陳列されている服が多ければ売れるのでしょうか?
散布図のメリット
散布図には多くのメリットがあります。
関係性を明確に示す
散布図は、2つの変数の関係性を示すのに最適なグラフと言えるでしょう。2つのデータポイントの関係性だけでなく、データセット全体のパターンやトレンドも示します。
作成や理解が簡単
散布図は非常によく使われるグラフです。そのため見る側にとって、理解しやすいことはメリットです。何のために作られたグラフなのかを理解し、データを解釈することも容易です。また、散布図は非常に簡単に作成することができます。
データの範囲が決定できる
散布図では、最大値と最小値を確認することができます。これはデータセット全体を理解する上で重要です。しかし、外れ値は混乱を招く可能性があります。
散布図の欠点
データが多すぎる場合がある
プロットが過剰にある散布図では、パターンが見えにくくなり、ただの巨大な塊になってしまいます。グラフを作成する際には、相関やパターンが見えるだけの十分なデータが必要ですが、データが多すぎると逆効果になる場合があります。
<解決策>
ヒートマップを使うと、グラフのデータポイントが多い部分がわかりやすくなります。異なるデータセットを色分けするとよいでしょう。
関係性がない場合
データにパターンや関連性があるように見えてしまうことがあります。たとえば、身長と猫の飼い方に関係があるように見えても、実際は関係ありません。
<解決策>
関係性が低いと考えられる変数のプロットは避けましょう。
相関関係=因果関係ではない
相関関係と因果関係はイコールではない、ということは常に覚えておいてください。相関があるからといって、一方がもう一方の原因であるとは限りません。背の高い人が猫を多く飼っているように見えても、背の高さが猫の飼い方に影響を与えるとは考えにくいでしょう。もっと論理的な関係でも、このことは当てはまります。気温が低い時に売上が増加した場合、それは天候のせいなのでしょうか。それとも店が顧客に提供している無料のホットチョコレートのような、第三の要因のせいなのでしょうか。
<解決策>
相関関係に基づいて因果関係を決めつけないようにしましょう。
散布図の代替となるグラフ
フィッシュボーンチャート(特性要因図)
フィッシュボーンチャートはその名の通り魚の骨格に似ています。魚の頭の部分に「解決すべき問題」を置き、背骨から分岐するように「問題の原因」を書きます。これは因果関係を明らかにするために使われる主要なチャートです。散布図のように定量的なデータを使わず、より有機的なブレインストーミングを行うものです。両者は全く異なるチャートで、異なるプロセスのために設計されています。
関連製品
-
Spotfire組織全体でのデータ分析・活用を実現するオールインワンのデータ分析ソフトウェア詳しく見る