ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

多因子 ANOVA

多因子 ANOVA の紹介

Statistics and Machine Learning Toolbox™ の関数 anovan を使用すると、多因子 ANOVA を実行できます。一連のデータの平均が複数因子のグループ (レベル) に関して異なるかどうかを判別するには、多因子 ANOVA を使用します。既定の設定では、anovan はすべてのグループ化変数を固定効果として扱います。変量効果がある ANOVA の例については、変量効果のある分散分析 (ANOVA)を参照してください。反復測定については、fitrmranova を参照してください。

多因子 ANOVA は 2 因子 ANOVA の汎化です。たとえば、因子が 3 つあるモデルは次のように記述できます。

yijkr=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkr,

ここで、

  • yijkr は応答変数の観測値です。i は因子 A のグループ i を表します (i = 1, 2, ..., I)。j は因子 B のグループ j を表します (j = 1, 2, ..., J)。k は因子 C のグループ k を表します。r は複製数を表します (r = 1, 2, ..., R)。定数 R について観測値の総数は N = I*J*K*R ですが、観測値の数は因子のグループの各組み合わせについて同じである必要はありません。

  • μ は全体の平均です。

  • αi は、因子 A に起因する、全体の平均 μ に対する因子 A のグループの偏差です。αi の合計は 0 になります。

    i=1Iαi=0.

  • βj は、因子 B に起因する、全体の平均 μ に対する因子 B のグループの偏差です。βj の合計は 0 になります。

    j=1Jβj=0.

  • γk は、因子 C に起因する、全体の平均 μ に対する因子 C のグループの偏差です。γk の合計は 0 になります。

    k=1Kγk=0.

  • (αβ)ij は、因子 A および B の間の交互作用項です。(αβ)ij をいずれかのインデックスについて合計すると 0 になります。

    i=1I(αβ)ij=j=1J(αβ)ij=0.

  • (αγ)ik は、因子 A および C の間の交互作用項です。(αγ)ik をいずれかのインデックスについて合計すると 0 になります。

    i=1I(αγ)ik=k=1K(αγ)ik=0.

  • (βγ)jk は、因子 B および C の間の交互作用項です。(βγ)jk をいずれかのインデックスについて合計すると 0 になります。

    j=1J(βγ)jk=k=1K(βγ)jk=0.

  • (αβγ)ijk は、因子 A、B および C の間の 3 次交互作用項です。αβγ(ijk) をいずれかのインデックスについて合計すると 0 になります。

    i=1I(αβγ)ijk=j=1J(αβγ)ijk=k=1K(αβγ)ijk=0.

  • εijkr はランダム外乱です。これらは、独立、正規分布、および一定の分散になっていると仮定されます。

3 因子 ANOVA では、因子 A、B、C の効果と応答変数 y に対する交互作用に関する仮説を検定します。因子 A の各グループにおける平均応答の等価性について、仮説は次のようになります。

H0:α1=α2=αIH1: at least one αi is different, i=1, 2, ..., I.

因子 B の各グループにおける平均応答の等価性について、仮説は次のようになります。

H0:β1=β2==βJH1: at least one βj is different,  j=1, 2, ..., J.

因子 C の各グループにおける平均応答の等価性について、仮説は次のようになります。

H0:γ1=γ2==γKH1: at least one γk is different, k=1, 2, ..., K.

因子の交互作用について、仮説は次のようになります。

H0:(αβ)ij=0H1:at least one (αβ)ij0

H0:(αγ)ik=0H1:at least one (αγ)ik0H0:(βγ)jk=0H1:at least one (βγ)jk0H0:(αβγ)ijk=0H1:at least one (αβγ)ijk0

この表記法では、(αβ)ij のように 2 つの添字があるパラメーターは 2 つの因子の交互作用効果を表します。パラメーター (αβγ)ijk は、3 次交互作用を表します。ANOVA モデルは、パラメーターの完全なセットまたは任意のサブセットをもつことができますが、それらの因子にのより単純な項を含まない限り、複雑な交互項を一般には含みません。たとえば、通常はすべての 2 次相互項を含まないときは 3 次相互項は含みません。

多因子 ANOVA 用データの準備

anova1 および anova2 と異なり、anovan ではデータが表形式になっている必要はありません。代わりに、応答観測値のベクトルと各因子に対応する値を含む別々のベクトル (あるいはテキスト配列) を要求します。この入力データ形式は、2 因子より多いとき、あるいは因子の組み合せあたりの観測値が一定でないときには、行列よりも便利です。

y=[y1,y2,y3,y4,y5,,yN]g1={'A','A','C','B','B',,'D'}g2=[12131,2]g3={'hi','mid','low','mid','hi',,'low'}

多因子 ANOVA の実行

この例では、自動車データに対して多因子 ANOVA を実行する方法を示します。データには、1970 ~ 1982 年に製造された 406 台の自動車に関する燃費などの情報が含まれています。

標本データを読み込みます。

load carbig

この例の 4 つの変数に注目します。MPG は、406 種類の自動車の 1 ガロンあたりのマイル数です (NaN と記述されている欠損値を含むものもあります)。その他の 3 つの変数は、cyl4 (4 気筒が搭載された車かどうか)、org (ヨーロッパ、日本、米国製)、when (期間の前期、中期、後期に製造) の 3 つの因子です。

3 次交互作用と Type 3 の二乗和を要求して、フル モデルに当てはめます。

varnames = {'Origin';'4Cyl';'MfgDate'};
anovan(MPG,{org cyl4 when},3,3,varnames)

ans = 7×1

    0.0000
       NaN
    0.0000
    0.7032
    0.0001
    0.2072
    0.6990

多くの項に、フルランクでないことを示す # という記号が付けられ、それらのうち 1 つは自由度がゼロで、p 値が欠落しています。これは、因子の組み合せが失われていたり、モデルが高次項をもつときに発生することがあります。この場合、下記のクロス集計により、期間の初期にヨーロッパで製造された 4 気筒以外の自動車は存在しないことが tbl(2,1,1) の 0 からわかります。

[tbl,chi2,p,factorvals] = crosstab(org,when,cyl4)
tbl = 
tbl(:,:,1) =

    82    75    25
     0     4     3
     3     3     4


tbl(:,:,2) =

    12    22    38
    23    26    17
    12    25    32

chi2 = 207.7689
p = 8.0973e-38
factorvals = 3x3 cell array
    {'USA'   }    {'Early'}    {'Other'   }
    {'Europe'}    {'Mid'  }    {'Four'    }
    {'Japan' }    {'Late' }    {0x0 double}

その結果、3 次交互作用の影響を推定することは不可能で、3 次交互作用項をモデルに含めると、近似が特異になります。

ANOVA 表から得られる限られた情報でも、3 次交互作用が p 値 0.699 をもち、有意でないことがわかります。

2 次交互作用のみを調べます。

[p,tbl2,stats,terms] = anovan(MPG,{org cyl4 when},2,3,varnames);

terms
terms = 6×3

     1     0     0
     0     1     0
     0     0     1
     1     1     0
     1     0     1
     0     1     1

これですべての項を見積もることができます。交互作用項 4 (Origin*4Cyl) と交互作用項 6 (4Cyl*MfgDate) に対する p 値は、典型的なカットオフ値 0.05 よりもかなり大きく、これらの項が有意でないことを示しています。これらの項を省略し、影響を誤差の項に集めることができます。出力変数 terms は、それぞれが項を表すビット パターンであるコードの行列を出力します。

terms から項の入力を削除して、モデルから項を省略します。

terms([4 6],:) = []
terms = 4×3

     1     0     0
     0     1     0
     0     0     1
     1     0     1

anovan を再度実行します。このときは結果のベクトルをモデル引数として指定します。因子の多重比較に必要な統計量も返されます。

[~,~,stats] = anovan(MPG,{org cyl4 when},terms,3,varnames)

stats = struct with fields:
         source: 'anovan'
          resid: [1x406 double]
         coeffs: [18x1 double]
            Rtr: [10x10 double]
       rowbasis: [10x18 double]
            dfe: 388
            mse: 14.1056
    nullproject: [18x10 double]
          terms: [4x3 double]
        nlevels: [3x1 double]
     continuous: [0 0 0]
         vmeans: [3x1 double]
       termcols: [5x1 double]
     coeffnames: {18x1 cell}
           vars: [18x3 double]
       varnames: {3x1 cell}
       grpnames: {3x1 cell}
        vnested: []
            ems: []
          denom: []
        dfdenom: []
        msdenom: []
         varest: []
          varci: []
       txtdenom: []
         txtems: []
        rtnames: []

ここでは、これらの車の燃費が 3 つすべての因子に関連し、製造日の影響が車の製造場所に依存することを示すより単純なモデルを得ることができました。

生産国と気筒について多重比較を実行します。

results = multcompare(stats,'Dimension',[1,2])

results = 15×6

    1.0000    2.0000   -5.4891   -3.8412   -2.1932    0.0000
    1.0000    3.0000   -4.4146   -2.7251   -1.0356    0.0001
    1.0000    4.0000   -9.9992   -8.5828   -7.1664    0.0000
    1.0000    5.0000  -14.0237  -12.4240  -10.8242    0.0000
    1.0000    6.0000  -12.8980  -11.3080   -9.7180    0.0000
    2.0000    3.0000   -0.7171    1.1160    2.9492    0.5085
    2.0000    4.0000   -7.3655   -4.7417   -2.1179    0.0000
    2.0000    5.0000   -9.9992   -8.5828   -7.1664    0.0000
    2.0000    6.0000   -9.7464   -7.4668   -5.1872    0.0000
    3.0000    4.0000   -8.5396   -5.8577   -3.1757    0.0000
      ⋮

参考

| | |

関連する例

詳細