回帰分析とは?
ビジネスでの利用目的や用途例を解説
回帰分析は、複数のデータ間の関係を数式で表す統計手法です。原因と結果の関係を調べ、予測にも役立ちます。大量のデータを効率的に分析でき、AIや機械学習との連携でさらに高度な分析が可能になります。
回帰分析とは?
回帰分析とは、2つ以上の変数間の関係を明らかにする統計手法です。通常はグラフで表され、この方法では従属変数と独立変数の関係を検証します。通常、独立変数は従属変数とともに変化し、回帰分析はその変化に最も影響を与える要因が何であるかを解明しようとします。
データに基づいた意思決定を行うことが重要であるとわかっていても、数百万、数兆という膨大なデータポイントがあるとき、どこから始めればいいのでしょうか?幸いなことに、人工知能(AI)と機械学習(ML)は、膨大な量のデータを数時間で解析し、より理解しやすくすることができます。その後、アナリストがその関係性をより詳しく調査することになります。
回帰分析の例
実際の世界において、回帰分析が使われるシナリオは次のようなものです。ある小売業者が、来月の売上高(従属変数)を予測しようとしています。しかし、その売上高を予測するには、その周りの環境、たとえば、天候や新商品の発売、競合他社の動向、あるいは店舗前の歩道の工事など、影響を与える変数が多く、予測は簡単ではありません。
たとえば、経理部のボブや、10年間販売員として働いているレイチェルのように、立場によっては意見を持っている人もいるかもしれません。しかし、回帰分析では、測定可能なすべての変数を選別し、どの要因が売上に影響を与えるか、また変数がどのように相互作用するかを論理的に示すことができます。これによって、ビジネスはより良いデータに基づいた意思決定をすることができます。 この小売業者の例では、従属変数は売上であり、独立変数は天候や新商品の発売、競合他社の動向、歩道の工事に該当します。
回帰分析における回帰直線の利用
回帰分析を始めるには、データサイエンティストは変数に関するすべてのデータを収集します。これには、事前にかなりの期間の売上高や、同じ期間の天候(降水量など)も含まれるでしょう。次に、データを加工してグラフで表示します。
分析では、Y軸には常に従属変数、つまり検証しようとしているものが入ります。この場合は売上高です。X軸には独立変数、つまり降水量が入ります。この単純な架空のグラフを見ると、雨が降ると売上が増えるという正の相関があることがわかります。しかし、ある程度の降水量でどれくらい売れるかは正確にはわかりません。ここで回帰直線を加えます。
回帰直線は、データに最もよく当てはまっている直線であり、従属変数と独立変数の関係を示します。この例では、回帰直線がデータと交差しており、任意の降水量で何が起こるかを視覚的に予測しています。
回帰直線は、その予測値を計算する式を使用します。
Y = A + BX
Yは従属変数(売上)、Xは独立変数(降水量)、Bは直線の傾き、AはYが直線と交差する点です。
データサイエンスでは、高度なプログラムがこれらの計算を瞬時に実行し、精度が高いデータにもとづく予測を行います。
重回帰分析
重回帰分析は、回帰分析のうち、1つの従属変数に対して、独立変数が複数ある場合を指し、複数の要因が結果にどのような影響を与えているかを理解するための統計手法です。重回帰分析により、統計学者は変数間の複雑な関係を特定することができます。結果はより複雑になりますが、単純な1変数の回帰分析よりも現実的な結果を得ることができます。小売業者の例では、天候や新商品の発売、競合他社の広告などが、売上に与える影響を示します。
誤差項とは?
回帰分析は因果関係を予測するのではなく、変数間の関係性を予測するものです。「降水量が売上高に影響するのは明らかだ」と言いたくなるかもしれませんが、それが本当であるという証拠はありません。独立変数が、従属変数を100%完全に予測することはありません。
誤差項とは、モデルが説明できない誤差やノイズを表します。誤差項が大きいほど、回帰直線が実際のデータと大きくズレていることを意味し、予測の信頼度は低くなります。回帰直線のフィットの良さを表す指標に決定係数(R2)があります。決定係数が50%であればモデルの精度は低く、85%であれば、独立変数が従属変数を十分予測できる可能性が高いことを示します。
相関関係と因果関係はイコールではありません。つまり、売上の増加の原因が雨ではなく、別の独立変数である可能性もあります。変数間には関連性があるように見えますが、全く別の要因がある可能性もあります。ビジネスにおいて、関係する要因をより明確に理解するためには、多変量解析を行う必要があります。回帰分析だけでは直接的な原因と結果を予測することはほぼ不可能です。
このため、回帰分析では通常、売上の増減に関する実際の要因を発見しやすくするために、複数の変数を含めます。もちろん、複数の独立変数を含めると、複雑な結果になる可能性がありますが、優れたデータサイエンティストや統計学者であれば、データを整理して正確な結果を得ることができます。
もう一つ役に立つのはビジネスに関する知識です。店では降水量が多い日により多くの商品を売っているかもしれませんが、データサイエンティストが販売スタッフと話してみると、雨の日に無料で提供されるコーヒーを目当てに来店する人が多いことがわかるかもしれません。その場合、売上増加の原因は雨なのでしょうか、それとも無料のコーヒーなのでしょうか?
これは、企業は市場調査をする必要があることを意味しています。顧客に、なぜ特定の日にその商品を購入したのか?と尋ねます。コーヒーに惹かれて店に入り、雨で店内に留まり、そして購入しようと思っていた商品を見つけたのかもしれません。したがって、売上増加の原因は雨ですが、無料のコーヒーも考慮する必要があります。どちらか一方が欠けても、同じ結果にはなりません。
企業は回帰分析をどのように利用できるか?
一般的に、回帰分析は以下の目的で利用されます。
- 現象の説明
- 未来の出来事の予測
- 製造や配送のプロセスの最適化
- エラーの解決
- 新しいインサイトの提供
現象の説明
ある月の特定の日に売上が急増する理由、ある月にサービスコールが増える理由、ある日に限ってレンタカーの返却が遅れる理由(変数)を探ることなどが考えられます。
予測をする
回帰分析が特定のプロモーションの後に商品の購入数が増えることを示した場合、事業部はどの広告を出すか、どのプロモーションを使うかという正確な判断を下すことができます。
回帰分析における予測は、さまざまな状況やシナリオをカバーできます。たとえば、看板を何人が見るかを予測することで、そこへの広告投資が良いアイディアかどうかを、経営陣が判断するのに役立ちます。
保険会社や銀行は回帰分析の予測を多く利用しています。住宅ローンを借りた人のうち、何人が期限内に返済するでしょうか?何人の保険契約者が自動車事故に遭ったり、自宅で盗難に遭ったりするでしょうか?これらの予測はリスク評価を可能にするだけでなく、最適な手数料や保険料の価格も予測できます。
プロセスの最適化
ベーカリーでは、クッキーの賞味期限と焼くときのオーブンの温度に関係があるかもしれません。ここでの最適化の目的は、クッキーのもちもち感を保ちながら、賞味期限を延ばすことです。
コールセンターでは、苦情の件数と待ち時間との関係を知る必要があるかもしれません。そうすれば、顧客満足度を最大化するために、一定時間内に電話に対応できるようスタッフを訓練したり、増員することができます。もちろん、コール件数は一日の中で変化するため、経営陣はスタッフのレベルに関して十分な知識を持ち、最適化された決断を下すことができます。
エラーの解決
あるお店の店長が、営業時間を延ばせば売上が増えるという妙案を思いつきました。1日に4時間も長く営業すれば、それに応じて売上が増えると店長は説明します。しかし、営業時間を延長したからといって、必ずしも売上が増えるとは限りません。回帰分析を行うと、売上が増加しても、延長した時間分のコストをカバーできない可能性があることがわかります。このような定量的な分析は、経営者の意思決定をサポートします。
新しいインサイト
ほとんどの企業には大量のデータがあり、時として無秩序な状態にあります。回帰分析を使えば、このデータから過去に気づかなかった変数間の関係に関する情報が得られるかもしれません。POSデータを使えば、一日のうちで忙しい時間帯や需要の急増、以前は気づかなかった売上の高い日などがわかるかもしれません。
回帰分析の課題
前述しましたが、相関関係と因果関係はイコールではありません。任意の2つの変数の間にある関係性を示すことはできますが、それは変数の一方がもう一方の原因であることを証明するものではありません。回帰分析で正の相関が見られたときに、それが原因と結果の明確な兆候だと思う人もいます。しかし、前述したように、回帰分析は変数間の関係だけを示すものであり、原因と結果を示すものではありません。実際には存在しない関係について仮定をしないように注意しなければなりません。
また、独立変数はコントロールができないものかもしれません。たとえば、雨が降ると売上が伸びることがわかっていても、天候をコントロールすることはできません。そうなると、その変数は重要なのでしょうか?自分でコントロールできるマーケティング、店舗レイアウト、スタッフの行動、特徴、プロモーションなどの内部要因を制御することが重要です。雨が降るのを待つのは得策とは言えません。
Garbage in: garbage out『ごみを入れたら、ごみが出てくる』
データサイエンティストの役割は、その大部分がデータクレンジングです。これは、計算の精度は入力されたデータの精度に依存するためです。入力情報がゴミであれば、回帰分析の結果もゴミになります。統計やデータクレンジングによって、一部の不規則性や不完全性を管理・制御することができますが、結果として得られる予測が正確であるためには、データが正確でなければなりません。
誤差項を無視していませんか。データが結果の60%を説明しているとしても、残りの40%に重要な情報が含まれている可能性があり、それを調べる必要があります。自問してみてください。この計算は信頼できるほど正確なのか、それとももっと大きな要因や変数があるのか?多くの場合、経験豊富なマネージャーやその事業に関わっている人に結果を見てもらうことで、ダメ押しの確認ができます。直感やビジネスのドメイン知識は重要です。なぜなら、何か見逃していたり、誤った帰属がないかを確認することができるからです。
関連製品
-
Spotfire組織全体でのデータ分析・活用を実現するオールインワンのデータ分析ソフトウェア詳しく見る