判別分析の活用方法や注意点とは?具体的な事例を使って解説

判別分析とは

判別分析の概要

判別分析とは過去のデータを使って、未知のデータの判別(分類)を行う分析手法です。
この分析により顧客の行動を予測することや、どのような基準で顧客を判別できるか検討することができるようになります。
判別するグループは「あり」「なし」のような2値変数でも、「大」「中」「小」のような複数のカテゴリー変数でも対応することができます。
身近な例を挙げると
「身長や体重データから男女を判別する」
「検査データからがんの進行度(ステージ)を判別する」
といった場合に判別分析が活用できます。

判別分析が活用できる場面

ビジネスの現場において、あるデータを特定のカテゴリーに判別しなければならない場面は多いため、判別分析は汎用性の高い分析手法です。
具体例を挙げると、以下の場面で判別分析は活用できます。

  • 顧客情報や購買情報を使って、ある商品を購入する可能性の高い顧客か否か判別(予測)する
  • 顧客情報や購買情報を使って、リピーターになる確率が高い顧客か否か判別(予測)する
  • 顧客情報を使って、事前に購買傾向で分類したグループのいずれに属する顧客か判別する
  • アンケート結果からどの商品がその顧客におすすめか、レコメンドに活用する

いずれも既存のデータを利用して新しいデータを判別、予測しています。
なお、売上予測のような予測するものがカテゴリーではなく数値である場合は、判別分析は活用できません。
数値を予測する場合は重回帰分析など別の分析手法を用いるようにしましょう。

判別分析の手順

判別分析を実施する際に、判別したいデータだけでいきなり判別することはできません。
判別分析を行う際は、訓練データと呼ばれる判別結果が分かっている事前データの準備が必要です。

訓練データを使ってデータの傾向を学習すると、予測が可能となります。
例えば身長と体重データを使って男女の判別を行うケースで考えてみましょう。
過去のデータを訓練データにして、男性と女性はそれぞれどのような傾向があるのか、判別分析モデルに学習してもらいます。

その後学習したモデルを使って、新しいデータの男女を判別できるようになります。

判別分析を活用する際は、過去の傾向から未来を予測することが目的である場合が多いため、過去のデータを訓練データにすることがほとんどです。
なお、訓練データは予測する際に使うデータと同じでなければならないことに注意してください。
身長と体重から男女を予測することが目的にも関わらず、訓練データにウエストサイズなどの情報を使ってはいけません。
また身長と体重を訓練データに使用したにも関わらず、実際は体重データが収集できずに身長だけで判別しなければならない場合も予測精度を著しく下げる原因になるため注意してください。

判別分析の特徴

判別分析のメリット

未知のデータの予測や判別ができる

判別分析の最大のメリットは未知のデータの予測や判別ができるようになることです。
マーケティングの分野では顧客の未来の行動を予測したり、属性を判別することで、有効な施策を先回りして行うことができます。
顧客を中心としたマーケティング施策ではこのような予測は非常に効果的であり、判別分析は有効活用できる場面は多くあります。
単なるデータの集計だけでは傾向は把握できますが、予測はできません。
今までのデータから未知のデータの予測ができることは、判別分析の大きなメリットです。

複数のカテゴリーの判別も可能

判別分析は2値変数だけでなく、複数のカテゴリーをもつカテゴリー変数の判別も行うことができます。
2値変数とは商品購入を「する/しない」、「男/女」といった2つのグループ(カテゴリー)を持つ変数のことです。
カテゴリー変数とは血液型の「A型/B型/O型/AB型」や社員の「新人/中堅/役職者」のように2つ以上のカテゴリーを持つ変数のことです。
2値変数もカテゴリー変数の一種であり、カテゴリーが2つしかないカテゴリー変数を2値変数と表現します。
2値変数の予測にしか対応できない分析手法もある一方で、判別分析は複数のカテゴリーを持つ変数にも対応できます。
実際に予測をしたいものが2値変数でないケースも多いため、複数のカテゴリーを予測できる分析手法は重宝されます。
このように複数のカテゴリーの判別にも対応できる点は、判別分析のメリットの一つです。

訓練データの量が少なくても対応できる

最新の複雑な分析手法に比べると、判別分析は訓練データの量が少なくても精度が極端に下がらない傾向があります。
判別分析の理論や計算式は比較的シンプルで、データが大量にないことを前提とした分析手法だからです。
回帰分析や判別分析は比較的古くから使われている分析手法であり、昔は今とは違いデータを集めることが容易ではありませんでした。
そのためなるべく少ないデータでも予測ができるように理論設計がされています。
反対にGBDTやニューラルネットといった最新の手法はビッグデータがあることを前提とした分析手法のため、訓練データが少ないと精度が大幅に落ちてしまう欠点があります。
以上の理由から、判別分析は比較的少ない訓練データで予測を行うことができるというメリットがあります。

判別分析を活用する際の注意点

連続変数の予測はできない

判別分析で予測や判別ができるのはカテゴリー変数のみです。
身長や売上といった連続変数(数値)の予測はできません。
予測する対象が連続変数である場合は、判別分析ではなく重回帰分析や決定木分析などの別の分析手法を使用するようにしましょう。

良質な訓練データが必要

他の分析手法にも言えることですが、予測精度は訓練データの質に影響されます。
とりあえず数を集めただけの質の悪いデータでは、理想の精度が出ないこともあります。
判別分析の場合、良質な訓練データとは”予測する各カテゴリーの特徴を的確に表したデータ”です。
先ほどの身長と体重から性別を予測する例を使って考えてみましょう。
普通に考えると、身長が高ければ高いほど、体重が重ければ重いほど、男性である確率は高くなるはずです。
そのため訓練データもそのようなデータになっていることが望ましいと言えます。
反対に身長が低い男性と身長が高い女性のみを集めてきたデータを訓練データにした場合、予測精度は著しく低くなるはずです。

少々極端な例を挙げましたが、訓練データに何らかの偏りがある場合や予測する対象と乖離がある場合に、予測精度は低くなります。
そのため判別分析に使う訓練データは、予測する各カテゴリーの特徴を的確に表したデータでなければなりません。

予測精度は比較的劣る

予測精度に関して、判別分析は最新の分析手法に比べて低くなる傾向があります。
“判別分析のメリット”でご説明したように、判別分析の理論はシンプルなため、大まかな判別しかできないからです。
予測精度が高いことを目的とし、訓練データが大量にある場合はGBDTやニューラルネットなど最新の分析手法を用いたほうが良いでしょう。

判別分析の活用事例

顧客行動の予測によりDMのコンバージョン率をアップした事例

ある企業がデータ分析を使って効果的にダイレクトメールを送付し、売上を向上させるプロジェクトを開始しました。
すでに商品は決まっており、ダイレクトメール(DM)の内容やデザインも出来上がっている状態です。
そのため今までの購買データを活用し、その商品を購入してくれそうな顧客を選定してDMを送ることで効果的に売上を向上できると考えました。
データ分析を活用して最終的にはその商品が売れる顧客のリストを作成することが目的です。
顧客一人一人に対して、その商品を「買う/買わない」の2値の判別予測を実施することが目的のため、判別分析を用いて予測を行うことにしました。
過去1年の顧客情報、受注データを訓練データにして、どのような属性の顧客がその商品を買っているのか学習させました。
今回の商品は比較的若く、すでに子供がいる世帯の女性がその商品を買う傾向があることが分かりました。
最後に新しいデータに対して判別予測を行い、”買う”と判別された顧客をリストにまとめ、DMを送付しました。
結果的にDMのコンバージョン率は今までの3倍になり、売上も5%上げることに成功しました。
判別分析を上手に活用し、マーケティング効率の改善に活かした例です。

判別分析の理論

判別分析の種類

判別分析はデータ間の距離(類似性)を使って判別を行っています。
判別分析には大きく2種類の方法があり、線を使って区切る方法と、データの分布を使って区切る方法があります。
先ほどの身長と体重から性別を予測する例を使って説明していきましょう。
まずこちらが訓練データの散布図です。
男女でデータの分布がなんとなく違うことが分かると思います。

次に予測したい性別のデータを黄色で加えます。

このデータが男女のどちらなのかは人間が判断しても微妙なところですね。
このデータを判別分析によって判別してみましょう。
まずは線によって区切る判別分析を実施してみましょう。
ちなみにこの方法を線形判別分析と呼びます。

線形判別分析では、このように直線で男性と女性を区切ります。
今回のケースでは、黄色い点は男性側に含まれていますので”男性”だと予測されます。
線形判別分析はシンプルで分かりやすいですが、直線で区切りにくいデータでは精度が落ちるという欠点があります。
次にデータの分布を使って区切る方法を使ってみましょう。
データの分布はマハラノビス距離と呼ばれる距離を計算して作成します。

マハラノビス距離で区切ると、黄色い点はどちらかといえば女性に判別されそうです。
このように区切る方法によって予測が変わることもあります。

判別分析と回帰分析の違い

2値変数を予測、判別する分析にはロジスティック回帰分析という分析手法が存在します。
判別分析とロジスティック回帰分析はどちらも同じような状況や目的で使用可能であり、その性質も非常に似ています。
しかし以下の点で両者には違いがあります。

  • ロジスティック回帰分析は2値のカテゴリー変数しか予測できない
  • 判別分析は3つ以上のカテゴリー変数にも対応できる
  • ロジスティック回帰分析はオッズ比を算出できる
  • ロジスティック回帰分析の方が有名なため馴染みがある

予測したいものが3つ以上のカテゴリー変数であれば判別分析を使用する方がよいといえます。
反対にオッズ比を求めたい場合や、結果を説明する相手がロジスティック回帰分析しか知らない場合は、ロジスティック回帰分析の方が最適です。
迷う場合はどちらも使用してみて、精度の高いほうを採用するという手段もあります。

判別分析とクラスター分析の違い

判別分析と概念が似た分析として、クラスター分析というものがあります。
どちらもデータを任意のカテゴリーに判別するという点では同じです。
しかし両者には訓練データの有無に関して、決定的な違いがあります。
判別分析は教師あり学習と呼ばれる分析手法であり、どんなデータがどんなカテゴリーに含まれるのか分かる訓練データが必ず必要です。

一方でクラスター分析は、どんなデータがどんなカテゴリーに含まれるか不明な状態で分析を行います。
そのためカテゴリー変数には訓練データが必要ありません。
つまり以前のデータから予測するカテゴリーがすでに決まっている場合は判別分析を使用し、どんなカテゴリーに分類するか決まっていない場合はクラスター分析を行います。
ちなみに過去のデータを使ってクラスター分析でグループを作り、そのデータを訓練データとして判別分析で新しいデータの予測を行うことも可能です。
判別分析とクラスター分析で迷った際は、訓練データ(正解となるデータ)があるかないかで判断するようにしましょう。

まとめ

最後におさらいをしましょう。

  • 判別分析は過去のデータを使って、未知のデータの判別(分類)を行う分析手法
  • 過去のデータから顧客の行動を予測したり、レコメンドしたりする際に活用される
  • 判別分析は3つ以上のカテゴリー変数の判別にも活用できるが、連続変数には活用できない
  • 判別分析は比較的少ない訓練データでも対応できるが、予測精度は低い傾向がある
  • 判別分析には大きく2種類の判別方法があり、どちらが最適かはデータによって変わる
  • 判別分析とロジスティック回帰分析は似ているが、3つ以上のカテゴリー変数の予測には判別分析が適している
  • 判別分析とクラスター分析の違いは訓練データの有無

判別分析は汎用性があり、ビジネスの現場で使いやすい分析手法です。
特に3つ以上のカテゴリー変数に対応している分析手法は少ないため、そのような場合は判別分析を検討してみることをおすすめします。

最後までお読みいただきありがとうございました。