ロジスティック回帰とは?
機械学習の予測分析と応用例
ロジスティック回帰は、ある事象が起こる確率を予測する統計モデルです。機械学習でよく使われ、例えば、顧客が商品を購入する確率などを計算できます。線形回帰と似ていますが、結果が0か1の二択になります。
高い評価と実績


ロジスティック回帰とは?
ロジスティック回帰とは、あるイベントが起こる確率を決めるために使用される統計モデルです。特徴間の関係性を示して、ある結果の確率を計算します。
ロジスティック回帰は、機械学習(ML)において正確な予測を作成するために使用されます。線形回帰と似ていますが、グラフィカルな結果ではなく、目的変数は0または1のバイナリです。測定変数は2つのタイプがあり、説明変数/特徴量(測定される項目)と目的変数/ターゲットバイナリ変数(結果)です。
例えば、学生がテストに合格するかどうかを予測しようとする場合、勉強時間が説明変数であり、目的変数は合格または不合格の2つの値となります。
ロジスティック回帰には3つの基本的な種類があります。
2項ロジスティック回帰
目的変数が2値変数である場合。上記の例のように、合格か不合格かの2つの値となります。
多項ロジスティック回帰
目的変数が3つ以上の場合。順序は関係ありません。たとえば、レストランで食事をする人が、ベジタリアン、肉、ビーガンのどれを好むかを予測できます。
順序ロジスティック回帰
多項ロジスティック回帰と同様に、3つ以上の変数で、順序がある場合。たとえば、ホテルを1~5段階で評価する場合に使えます。
ロジスティック回帰に使用される仮定
ロジスティック回帰を行うとき、特定の仮定が使用されます。
- 2項ロジスティック回帰では、目的変数がバイナリである必要があります。結果は1つのものまたは別のものです。
- 望ましい結果は、応答変数の因子レベル1で表される必要があります。望ましくないものは0です。
- 意味のある変数だけを含める必要があります。
- 独立変数は本質的に互いに独立している必要があります。多重共線性はほとんどないか、まったくないことが望ましいです。
- 対数オッズと独立変数は線形関係にある必要があります。
- ロジスティック回帰は、大規模なサンプルサイズにのみ適用する必要があります。
ロジスティック回帰の応用例
ロジスティック回帰は医療や社会科学の全領域をはじめとしたいくつかの分野で使用されます。
医療
たとえば、外傷患者の致死率を予測するために世界中で使用されている外傷重症度スコア(TRISS)というものがあります。このモデルは、ロジスティック回帰を応用して開発されました。生理学的指標と解剖学的重症度、患者の年齢などの変数を使用して予測生存率を算出します。
政治
ロジスティック回帰は、選挙を予測するためにも使用できます。アメリカ合衆国では、民主党、共和党、それとも無所属の指導者が政権を取るのでしょうか?これらの予測は、年齢、性別、居住地、社会的地位、前回の投票パターンなどの変数に基づいて投票予測(目的変数)を生成します。
製品テスト
ロジスティック回帰は、テスト中のシステムやプロトタイプ製品の成功または失敗を予測するために、製造業で利用することができます。
マーケティング
ロジスティック回帰は、顧客の問い合わせが販売につながる可能性、定期購入の開始または終了の可能性、新しい製品ラインに対する潜在的な顧客の関心まで予測するために使用できます。
金融
金融での使用例としてはクレジットカード会社が顧客が支払いを滞納する可能性を予測するために使用することがあります。構築されたモデルは、顧客にクレジットカードを発行するかどうかを判断するためのものです。モデルは、特定の顧客が「滞納する」か「滞納しない」かを示すことができます。これは、銀行用語で「デフォルト傾向モデリング」として知られています。
Eコマース
同様に、Eコマース企業は、メディアを横断した広告や販促活動に多額の投資をしています。彼らは、どの活動が最も効果的で、潜在的な顧客からの反応が最も期待できる選択肢であるかを確認したいと考えています。設定されたモデルは、顧客を「応答者」または「非応答者」に分類します。このモデルは、応答傾向モデリングと呼ばれます。 ロジスティック回帰の出力から得られる洞察により、企業は戦略を最適化し、経費や損失を削減しながらビジネス目標を達成することができます。ロジスティック回帰は、マーケティングキャンペーンの投資対効果(ROI)を最大化するのに役立ちます。これは、長期的には企業の収益に利益をもたらします。
ロジスティック回帰の利点と欠点
利点
ロジスティック回帰は、非常に効率的で、なおかつ膨大な計算リソースが必要ないため、広く使用されています。入力特徴量のスケーリングが必要ないうえに、解釈が容易です。正則化することも簡単で、提供される出力はよくキャリブレーションされた予測確率です。
線形回帰と同様に、ロジスティック回帰は、出力変数に無関係な属性や相関する属性が除外されると、より効率的に動作する傾向があります。そのため、特徴量エンジニアリングは、ロジスティック回帰と線形回帰の性能向上に有効です。
また、ロジスティック回帰は実装やトレーニングが簡単で、他の複雑なアルゴリズムの性能を評価するのに役立つ優れたベースラインになります。
欠点
ロジスティック回帰は非線形問題を解決するために使用できません。そして残念ながら、現在の多くのシステムは非線形です。さらに、ロジスティック回帰は、最も強力なアルゴリズムではありません。より良い、より複雑な予測を作成できる代替手段もいくつかあります。ロジスティック回帰はまた、データ形式に大きく依存しています。つまり、必要な独立変数をすべて特定しない限り、出力に意味がありません。結果が離散的である場合、ロジスティック回帰はカテゴリカルな結果を予測するためにしか使用できません。最後に、オーバーフィッティングに対して脆弱であることが知られています。
関連製品
-
Spotfire組織全体でのデータ分析・活用を実現するオールインワンのデータ分析ソフトウェア詳しく見る
高い評価と実績

