決定木分析の事例を使ってメリットや活用場面を紹介

1.決定木分析(ディシジョンツリー)とは

決定木分析とは、データから以下のような決定木と呼ばれる樹形図を作成し、予測や検証をする分析です。

英語ではDecision Tree Analysis(DCA)と呼ばれます。
決定木分析は購買情報やアンケート結果などのさまざまなデータに対して実施することが可能です。
決定木分析によって作成された決定木は、目的変数の予測や、目的変数に影響している因子の検証などに活用することができます。

決定木分析と回帰分析の違い

決定木分析と回帰分析はどちらも目的変数を予測するモデルを作っている点では同じです。
そのためどちらも似たような場面と目的で使用されます。
ですが決定木分析と回帰分析は、予測モデルを作るプロセスが異なります。

決定木分析はYes,Noの分岐のみで目的変数を予測します。
計算式などを使わずにシンプルな分岐のみで予測する点が、決定木分析の最大の特徴です。
一方で回帰分析は、y=ax+bのような回帰式と呼ばれる式を使って予測します。
基本的に目的変数と説明変数が比例関係にあるという仮定のもとで予測式を作っている点が、回帰分析の特徴です。
目的変数と説明変数が比例関係にある場合、回帰分析は精度が高くなります。
そのため使うデータによって決定木分析が適する場合もあれば、回帰分析が適する場合もあります。
また分析後に得られる結果に関しても、決定木分析と回帰分析は異なります。
決定木分析の結果はほとんどの場合、先ほどお見せした決定木(図)で示されます。
回帰分析の結果は”偏回帰係数”や”標準誤差”といった数値で示されます。

以上の理由から、分析目的は同じでも使うデータや得たい結果の形によって各分析を適切に使い分ける必要があります。

決定木分析を活用できる場面

決定木分析は比較的汎用性が高い分析で、様々な場面で活用できます。
大きく分類すると、具体的には以下の2つの場面で決定木分析が活用されています。

①顧客の行動予測
(例:過去のデータから顧客が次にある商品を購入するか否か予測する)
②ある事象の原因を探索
(例:あるサービスの解約につながる要因を探索する)

どちらもマーケティングにおいてしばしば必要となる場面であり、実際に様々な場面で決定木分析は活用されています。
ただしこれらの内容だけであれば決定木分析だけでなく、他の分析手法でも同じことができます。
ある程度分析に精通した方であれば、「この内容なら他の分析でもいいのでは?」と思われた方もいるかもしれませんが、決定木分析には他の分析にはないメリットが多くあります。
それでは決定木分析のメリットを詳しく解説していきましょう。

2.決定木分析のメリット

結果が分かりやすい

決定木分析で作成される決定木は、統計に縁がない方や数学が苦手な方でも解釈が容易であるというメリットがあります。
冒頭でお見せした決定木をもう一度見てみましょう。

これは身体計測と体力テストの結果から、男子か女子か予測する分類木です(分類予測をする決定木を分類木といいます)。
上から順にYesかNoで質問に回答していくだけで、男子である確率が分かるようになっています。

例えば身長が162cm、握力が23kgの子が男子である確率は70%となります。
このようなフローチャートはどなたでも馴染みがあるため、この図を見せるだけで誰でも予測が可能です。
同じ分類モデルで比較した場合、回帰分析では回帰係数やオッズ比が算出できます。
ある程度統計に詳しい方であれば、これらの値をみればモデルを理解できます。
しかしこれらの値は、統計に全く縁のない方では理解できず、結果の説明に時間を費やさなければなりません。

一方で決定木分析はこういった手間がなく、図を示すだけで以下の結果が理解できます。

  • 男女差は身長と握力、10m走のタイムから予測できる(男女差はそれらの影響を受ける)
  • 男女を予測する上で最も重要な要素は身長

ビジネスの現場では分析結果の説明が必要になる場面が多いため、分かりやすく結果が説明できる点は決定木分析の大きなメリットの一つです。

必要な前処理が少ない

回帰分析などに比べて、決定木分析は解析前に必要な前処理が少ないというメリットがあります。
決定木分析は欠損値の対応や、標準化や対数変換などの処理が不要です。
なぜなら決定木分析はデータの分布を制限せず、値の大小(もしくはYes,No)のみでデータを分類していくからです。
標準化や対数変換など、値の大小が変化しない変換は決定木分析には不要であり、欠損値か否かを分岐の条件にすることもできるため、欠損値処理も必要なく、また外れ値の影響もあまり受けません。
一方、回帰分析はデータが正規分布していることを前提とした解析です。
そのためデータが正規分布するように対数変換などの処理を行う必要があります。
外れ値の影響も受けやすいため適切な処理が必要ですし、欠損値を扱うことはできません。

以上の理由から、決定木分析は前処理が少なくて済みます。
前処理はデータ分析の仮定において、特に時間のかかる工程の一つですので、この点において決定木分析は楽に分析ができる手法であるとも言えます。

どんなデータに対しても汎用性が高い

どんな分析手法でも、その手法が向いているデータと向いていないデータがあります。
そのため分析内容に応じて、臨機応変に適切な分析手法を選択するという作業が必要になります。
その中で決定木分析は、比較的幅広いデータに対してよい性能を発揮できる傾向があります。
これは先ほどご説明したように、決定木分析は仮定、制約が少ない解析手法だからです。
基本的に仮定や制約が多い解析手法ほど、使う場面が限定されます。
例えばデータの比例関係を仮定する回帰分析は、比例関係にないデータ間の解析には向いていません。
一方でそのような仮定がない決定木分析は、様々なデータに対応できる汎用性を持っています。

分類、回帰どちらにも対応可能

決定木分析は、分類予測と回帰予測、どちらにも対応することができます。
分類予測とは、冒頭の例の「男子 or 女子」のようにデータを特定のカテゴリーに分類する予測です。
回帰予測とは、「売上予測」のように連続する値を予測します。
回帰分析の場合、”分類予測ならロジスティック回帰分析”、”回帰予測なら 重回帰分析”というように、予測する目的変数に合わせて使い分けをする必要があります。
一方決定木分析は、どちらの予測でも同じ解析で行うことが出来ます。
使い分けが必要ないという点は、統計解析に詳しくない方の解析の負担を減らすというメリットになります。

3.決定木分析の注意点

分岐の数に注意が必要

決定木分析を行う際は、分岐の数をどれくらいにするか、選択する必要があります。
分岐の数が少なすぎる場合、十分な予測ができずに精度が低くなりすぎるリスクがあります。
分岐の数が多すぎる場合、視覚的な分かりやすさがなく、データに過剰適合(過学習)しすぎてしまうリスクがあります。
過学習とは分析に使ったデータにのみ適合しすぎた状態で、新しいデータの予測精度が低くなってしまっていることを指します。
厄介なことに分岐の数に決まりはないので、データや目的に応じて判断していく必要があります。
目安としては、視覚的な分かりやすさを重視するなら分岐の数を2~3回に、多くても4回までにしておいたほうが良いでしょう。
冒頭の例は2回の分岐があるため、分かりやすい決定木が得られています。

一方で精度を重視する場合は、最初は少ない分岐数からはじめ、精度が低すぎるようなら分岐数を増やす、といった方法が良いでしょう。
最初から分岐数が多い状態から始めると、過学習のリスクがあるためおすすめしません。

精度が回帰分析に劣ることもある

残念ながら、決定木分析は精度が高くなりやすい分析ではありません。
予測のアルゴリズムがシンプルすぎるため、複雑な予測に対応できないからです。
精度を重視する場合、他の分析手法が適切である場合が多いです。
そのため精度において決定木分析が回帰分析に劣ることもあります。
決定木分析の強みは精度ではなく、”結果の分かりやすさ”や”前処理の少なさ”、”汎用性”です。
精度を重視する場合は、決定木の発展版であるランダムフォレストなどの分析手法があります。
解析手法は目的に応じて上手に使い分けるようにしましょう。

4.決定木分析の活用例

顧客の解約率予測や解約の原因探索に決定木分析を活用した例

インターネットサービスプロバイダーのある企業が、社内データを活かして顧客の解約率を減らす取り組みを始めることになりました。
解約しそうな顧客を早めに特定し、アプローチを行うことで解約率を減らすことが目的です。
当初は回帰分析を用いた予測モデルを採用しましたが、予測結果を視覚的に分かる形に落とし込むことができず、統計に詳しくない社員がこの予測モデルを活用することができませんでした。
そのため誰でも分かりやすい予測結果を提示し、社内全体で予測モデルを活用できる状態にする必要がありました。
そこで決定木分析を使った予測モデルを作ることで、視覚的に分かりやすい図を作成しました。
その際に作成された決定木は以下のようになりました。

この決定木からは以下のことが分かります。

  • コールセンターに電話をかけた顧客は解約率が高い
  • コールセンターに電話をかけた顧客のうち、毎月のデータ使用量が多い顧客の解約率が高い
  • コールセンターに電話をかけていない顧客のうち、Eメールサービスを使用している顧客の解約率は低い

このサービスの全体の解約率は5%ですので、コールセンターに電話をかけてデータ使用量が多い顧客は、解約する確率が全体の3.6倍も高いことが分かります。
この予測モデルを活用する前に、この予測モデルが適切に作成されているかどうか、検証しなければなりません。
そのためにまずは、コールセンターに電話をした顧客が解約しやすいのはなぜか、考える必要があります。
実際にコールセンターに電話をかけた顧客の要件を分析してみると、通信速度のトラブルに関する問い合わせが多くありました。
つまり通信速度に困っている顧客が解約しやすいと考えることができます。
2つ目の分岐がデータの使用量であることから、「毎月のデータ使用量が多いにも関わらず、通信速度に不満がある顧客が最も解約しやすい」という予測は妥当だと考えてよさそうです。
またEメールサービスの利用の有無が解約率に影響を与えることも妥当だと考えられそうです。

以上の結果から、この予測モデルは適切だと判断できそうです。
次にこの予測モデルをどのように活用するかを考える必要があります。
全体としての通信速度の問題はすぐに解消できないため、同社は以下の対策を行うことにしました。

  • 通信速度が速く、データ使用制限のないプレミアムプランを提案する
  • 通信速度のトラブルでコールセンターに電話をかけてきた顧客には特別なプレゼントを用意することで少しでも不満を減らしてもらう
  • Eメールサービスの利用者を増やす取り組みを実施する

特別なプレゼントにはギフトカードや、サービスの割引などを提案しました。
この決定木を使った予測モデルは分かりやすいため、社内全体で有効に活用されました。
これらの取り組みを実施した結果、120日間で20%の解約率削減に成功しました。

5.まとめ

最後におさらいをしましょう。

  • 決定木分析とはデータから決定木を作成して予測や検証をする分析
  • 回帰分析と似たような目的で使用されるが、予測のアルゴリズムや結果の形が異なる
  • 決定木分析はある事象の予測や、関連する要素の探索が必要な場面で使用される
  • 決定木分析のメリットは、”結果の分かりやすさ””前処理の少なさ””汎用性”
  • ”予測精度の高さ”は他の分析に比較的劣る
  • 決定木分析を実施する際は分岐の数に注意する必要がある
  • 実際の事例では、顧客の行動予測を社内で共有し、対策する時などに有効活用される

決定木分析はシンプルな分析ですので、統計に詳しくない方でも使いやすい分析手法です。
特に分かりやすさが重視されるマーケティングの分野で近年使用される機会が増加しています。
今までに使用したことがない方は、ぜひ一度使用してみることをおすすめします。

最後までお読みいただきありがとうございました。