分散分析（ANOVA）

分散分析（ANOVA）とは？
ANOVAの関連用語
一元配置分散分析と二元配置分散分析の違い
なぜANOVAが有効なのか
ANOVAの限界
ANOVAをデータサイエンスに活用する方法
ANOVAで解決できるビジネス課題

分散分析（ANOVA）とは？

分散分析（ANOVA）は、異なるグループの平均値の違いを比較するために使用される統計手法です。さまざまなシナリオで、異なるグループの平均間に差があるかどうかを判断するために使用されます。

例えば、糖尿病治療薬の効果を明らかにするために、科学者は薬の種類と血糖値の関係を調査するための設計と実験を行います。標本とは、母集団から抽出した個体（人）の集まりです。標本を複数のグループに分け、各グループに特定の薬を試用期間として投与します。試用期間終了後、個々の参加者の血糖値を測定します。そして、各グループにおける血糖値の平均が計算されます。ANOVAは、これらのグループの平均値を比較して、それらが統計的に異なるか、または類似しているかを知るのに役立ちます。

ANOVAの結果は、「F統計量」です。この値は、群内分散と群間分散の間の比を示し、最終的に帰無仮説が支持されるか棄却されるかの判断をする数字を作り出します。もしグループ間に有意差があれば、帰無仮説は支持されず、F値はより大きくなります。

ANOVAの関連用語

従属変数：独立変数によって影響を受け、決定される測定項目

独立変数：従属変数に影響を与える可能性のある測定項目

帰無仮説（H0）：各グループの平均値に差がない場合。ANOVA検定の結果によって、帰無仮説が受け入れられるか、棄却される

対立仮説（H1）：各グループの平均値の間に差があると理論付けられた場合

因子と水準：ANOVA の用語では、独立変数は従属変数に影響する「因子」と呼ばれる。「水準」は実験で使用される独立変数のさまざまな値を示す。

固定因子モデル：いくつかの実験では、因子に対して離散的な水準セットのみを使用する。たとえば、固定因子テストは、3つの異なる投与量の薬剤をテストし、それ以外の投与量の条件は調査しない。

ランダム要因モデル：このモデルは、独立変数の値から、ランダムに水準の値を抽出する。

一元配置分散分析と二元配置分散分析の違い

ANOVAには二つの種類があります。

一元配置分散分析

一元配置分散分析は、単一要因分散分析（single-factor ANOVA）または単純分散分析（simple ANOVA）とも呼ばれます。その名前が示すように、一元配置分散分析は、2つ以上の水準をもつ1つの独立変数（因子）だけの実験に適しています。たとえば、従属変数が「庭に花が多いのは何月か」であるとします。その場合、12の水準があります。

各月における庭園の花の数の平均値に違いはあるのか

	1月	2月	11月	12月
観測A	10	50	5	0
観測B	15	55	5	0
観測C	10	45	10	5

表の続き →

一元配置分散分析（one-way ANOVA）は、次のことを仮定します。
独立性：各観測の従属変数の値は、独立したデータセットである
正規性：従属変数の値は、正規分布に従う
分散：分散は、異なる実験グループ間で等質である
連続：従属変数（花の数）は連続的であり、細分化できる尺度で測定できる

二元配置分散分析

二元配置分散分析は、2つ以上の独立変数（因子）があるときに使用されます。これらの各因子は、複数の水準をもつことができます。例えば、庭に花が多く咲く年の月、そして、日照時間かもしれません。この二元配置分散分析は、独立変数間の影響だけでなく、因子間の相互作用を測定します。

各月の庭園の花の数と日照時間との影響

	1月	2月	3月	11月	12月
日照時間多い	10	50	70	5	0
	15	55	80	5	0
	10	45	65	10	5
			・・・
日照時間少ない	10	30	60	5	0
	11	45	70	5	0
	5	30	45	10	5

表の続き →

二元配置分散分析は、次のことを仮定します。
連続：一元配置分散分析と同様、従属変数が連続でなければならない
独立性：各標本は他の標本から独立である
分散：異なるグループ間の分散が等質であること
正規性：サンプルは正規分布の母集団を代表するものである
カテゴリ：独立変数が別々のカテゴリまたはグループであること

なぜANOVAが有効なのか

ANOVAの必要性に疑問を持つ人もいます。彼らは「結局のところ、平均値は見るだけで評価できる」と言います。しかし、ANOVAは平均値を比較するだけではありません。

さまざまなグループの平均値が異なっているように見えても、これは独立変数が従属変数に及ぼす影響というよりも、標本誤差によるものかもしれません。もし標本誤差によるものであれば、グループ平均値間の差は意味がありません。ANOVAは、平均値の差が統計的に有意であるかどうかを見つけるのに役立ちます。

ANOVAはまた、独立変数が従属変数に影響を及ぼしているかどうかを間接的に明らかにします。例えば、先述の血糖値実験において、ANOVAが群平均は統計的に有意ではなく、群平均間の差は標本誤差によるものだけであることを発見したとします。この結果は、薬の種類（独立変数）は血糖値に影響を与える有意な要因ではないことを示唆します

ANOVAの限界

ANOVAは、少なくとも2つのグループの平均値の間に有意差があるかどうかだけを把握できますが、どのペアが平均値に差があるのかを説明することはできません。より細かいデータの要求がある場合、さらなるフォローアップのための統計処理を展開することで、どのグループが平均値で異なるかを見つけ出すことができるでしょう。一般的に、ANOVAは他の統計手法と組み合わせて使用されます。

ANOVAは、平均値のみを比較するので、もしデータが正規曲線に分布しておらず、外れ値がある場合、ANOVAはデータを解釈するのに適切なプロセスではありません。

同様にANOVAは、標準偏差がグループ間で同じか類似していることを仮定しています。もし、標準偏差に大きな差があれば、検定の結論は不正確である可能性があります。

ANOVAをデータサイエンスに活用する方法

機械学習における最大の壁の1つは、モデルを訓練させるために使用される最も信頼性が高く有用な特徴量を選択することです。ANOVAは、最適な特徴量選択に役立ちます。入力変数の数を最小化し、モデルの複雑さを軽減することができます。また、独立変数が目的変数に影響を及ぼしているかどうかを決定するのに役立ちます。

データサイエンスにおけるANOVAの使用例として、Eメールのスパム検出があります。Eメールはそれ自体および特徴量が膨大であるため、すべてのスパムメールを識別して拒絶することは非常に困難で、多くのリソースが必要になります。ANOVAとF検定は、どのメールがスパムでどれがそうでないかを正しく識別するために重要な特徴量を特定するために導入されました。