メインコンテンツ

step

項の追加または削除による一般化線形回帰モデルの改良

説明

NewMdl = step(mdl) は、ステップワイズ回帰を使用して 1 つの予測子を追加または削除した、mdl に基づく一般化線形回帰モデルを返します。

NewMdl = step(mdl,Name,Value) では、1 つ以上の名前と値のペアの引数を使用して追加オプションを指定します。たとえば、項の追加または削除に使用する基準や、実行する最大ステップ数を指定できます。

すべて折りたたむ

ランダム データと単一の予測子を使用してポアソン回帰モデルを当てはめ、step を使用して予測子項を追加または削除することによってモデルを改善します。

20 個の予測子変数をもつ標本データを生成します。3 つの予測子を使用して、ポアソン応答変数を生成します。

rng('default') % For reproducibility
X = randn(100,20);
mu = exp(X(:,[5 10 15])*[.4;.2;.3] + 1);
y = poissrnd(mu);

X(:,2) を唯一の予測子として使用して、ポアソン データの一般化線形回帰モデルを作成します。

mdl = fitglm(X,y,'y ~ x2','Distribution','poisson')
mdl = 
Generalized linear regression model:
    log(y) ~ 1 + x2
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE        tStat       pValue  
                   ________    ________    _______    __________

    (Intercept)      1.1386    0.056722     20.073    1.2817e-89
    x2             0.010768    0.056564    0.19037       0.84902


100 observations, 98 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 0.0362, p-value = 0.849

step を使用して、mdl を改善します。最大 5 ステップのステップワイズ回帰を許可するため、'NSteps' として 5 を指定します。

mdl1 = step(mdl,'NSteps',5)
1. Adding x5, Deviance = 134.4375, Chi2Stat = 52.21338, PValue = 4.978574e-13
2. Adding x15, Deviance = 106.1925, Chi2Stat = 28.24496, PValue = 1.068927e-07
3. Adding x10, Deviance = 94.708, Chi2Stat = 11.4845, PValue = 0.000701792
4. Removing x2, Deviance = 95.021, Chi2Stat = 0.31263, PValue = 0.57607
mdl1 = 
Generalized linear regression model:
    log(y) ~ 1 + x5 + x10 + x15
    Distribution = Poisson

Estimated Coefficients:
                   Estimate       SE       tStat       pValue  
                   ________    ________    ______    __________

    (Intercept)     1.0115     0.064275    15.737    8.4217e-56
    x5             0.39508     0.066665    5.9263    3.0977e-09
    x10            0.18863      0.05534    3.4085     0.0006532
    x15            0.29295     0.053269    5.4995    3.8089e-08


100 observations, 96 error degrees of freedom
Dispersion: 1
Chi^2-statistic vs. constant model: 91.7, p-value = 9.61e-20

step は、応答変数の生成に使用した 3 つの予測子変数をモデルに追加し、そのモデルから X(:,2) を削除します。

入力引数

すべて折りたたむ

一般化線形回帰モデル。fitglm または stepwiseglm を使用して作成した GeneralizedLinearModel オブジェクトとして指定します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: 'Criterion','aic','Upper','quadratic','Verbose',2 は、赤池情報量基準を使用し、(最大で) 2 次の項をモデルに含め、評価プロセスおよび各ステップで行われた決定を表示するよう step に指示します。

項を追加または削除する基準。'Criterion' と以下のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • 'Deviance' — 項の追加または削除によって生じる逸脱度の変化に対する F 検定またはカイ二乗検定の p 値。F 検定では単一のモデルを検定し、カイ二乗検定では 2 つの異なるモデルを比較します。

  • 'sse' — 項の追加または削除によって生じる二乗誤差の和の変化に対する F 検定の p 値。

  • 'aic' — 赤池情報量基準 (AIC) の値の変化。

  • 'bic' — ベイズ情報量基準 (BIC) の値の変化。

  • 'rsquared'R2 の値の増加。

  • 'adjrsquared' — 自由度調整済み R2 の値の増加

例: 'Criterion','bic'

モデルから削除できない項を表すモデル仕様。'Lower' と次のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • モデルを指定する文字ベクトルまたは string スカラー。

    モデルの説明
    "constant"定数 (切片) 項のみがモデルに含まれます。
    "linear"切片と各予測子の線形項がモデルに含まれます。
    "interactions"切片、各予測子の線形項、および異なる予測子のペアすべての積がモデルに含まれます (二乗項はありません)。
    "purequadratic"切片項と各予測子の線形項および二乗項がモデルに含まれます。
    "quadratic"切片項、各予測子の線形項、二乗項、および異なる予測子のペアすべての積がモデルに含まれます。
    "polyijk"モデルは多項式であり、1 番目の予測子における次数 i までのすべての項、2 番目の予測子における次数 j までのすべての項が含まれます。3 番目以降の項についても同様です。0 ~ 9 の数値を使用して、各予測子の最大次数を指定します。モデルには交互作用項が含まれますが、各交互作用項の次数は、指定された次数の最大値を超えません。たとえば、"poly13" には、切片、x1x2x22x23x1*x2 および x1*x22 の各項が含まれます。x1 および x2 はそれぞれ 1 番目および 2 番目の予測子です。
  • モデル内の項を指定する t 行 (p + 1) 列の行列、つまり項の行列t は項の数、p は予測子変数の数であり、+1 は応答変数に相当します。項行列は、予測子の個数が多いときに項をプログラムで生成する場合に便利です。

  • 次の形式の文字ベクトルまたは string スカラー

    'Y ~ terms',

    ここで、termsウィルキンソンの表記法で表されます。式の変数名は、有効な MATLAB® 識別子でなければなりません。

例: 'Lower','linear'

データ型: char | string | single | double

実行する最大ステップ数。'NSteps' と正の整数から構成されるコンマ区切りのペアとして指定します。

例: 'NSteps',5

データ型: single | double

項を追加する基準のしきい値。次の表に記載されているスカラー値として指定します。

基準既定値判定
'Deviance'0.05F 統計量またはカイ二乗統計量の p 値が PEnter (入力に対する p 値) より小さい場合、項をモデルに追加します。
'SSE'0.05F 統計量の p 値が PEnter より小さい場合、項をモデルに追加します。
'AIC'0モデルの AIC の変化が PEnter より小さい場合、項をモデルに追加します。
'BIC'0モデルの BIC の変化が PEnter より小さい場合、項をモデルに追加します。
'Rsquared'0.1モデルの決定係数値の増加が PEnter より大きい場合、項をモデルに追加します。
'AdjRsquared'0モデルの自由度調整済み決定係数値の増加が PEnter より大きい場合、項をモデルに追加します。

変数増加法のステップワイズ回帰を防ぐには、step が達することがない値を PEnter に指定します。

  • Criterion"Deviance""SSE""AIC"、または "BIC" の場合は、PEnter–Inf として指定します。

  • Criterion"Rsquared" または "AdjRsquared" の場合は、PEnterInf として指定します。

例: PEnter=0.075

項を削除する基準のしきい値。次の表に記載されているスカラー値として指定します。

基準既定値判定
'Deviance'0.10F 統計量またはカイ二乗統計量の p 値が PRemove (削除に対する p 値) より大きい場合、項をモデルから削除します。
'SSE'0.10F 統計量の p 値が PRemove より大きい場合、項をモデルから削除します。
'AIC'0.01モデルの AIC の変化が PRemove より大きい場合、項をモデルから削除します。
'BIC'0.01モデルの BIC の変化が PRemove より大きい場合、項をモデルから削除します。
'Rsquared'0.05モデルの決定係数値の増加が PRemove より小さい場合、項をモデルから削除します。
'AdjRsquared'-0.05モデルの自由度調整済み決定係数値の増加が PRemove より小さい場合、項をモデルから削除します。

各ステップで、関数 step は項が現在のモデル内の他の項に対して冗長 (線形従属) であるかどうかもチェックします。項が現在のモデル内の他の項に線形従属している場合、関数 step は従属する項を基準値に関係なく削除します。詳細については、Criterion を参照してください。

変数減少法のステップワイズ回帰を防ぐには、step が達することがない値を PRemove に指定します。

  • Criterion"Deviance""SSE""AIC"、または "BIC" の場合は、PRemoveInf として指定します。

  • Criterion"Rsquared" または "AdjRsquared" の場合は、PRemove–Inf として指定します。

例: PRemove=0.05

当てはめにおける最大の項集合を記述するモデル仕様。'Upper' と次のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • モデルを指定する文字ベクトルまたは string スカラー。

    モデルの説明
    "constant"定数 (切片) 項のみがモデルに含まれます。
    "linear"切片と各予測子の線形項がモデルに含まれます。
    "interactions"切片、各予測子の線形項、および異なる予測子のペアすべての積がモデルに含まれます (二乗項はありません)。
    "purequadratic"切片項と各予測子の線形項および二乗項がモデルに含まれます。
    "quadratic"切片項、各予測子の線形項、二乗項、および異なる予測子のペアすべての積がモデルに含まれます。
    "polyijk"モデルは多項式であり、1 番目の予測子における次数 i までのすべての項、2 番目の予測子における次数 j までのすべての項が含まれます。3 番目以降の項についても同様です。0 ~ 9 の数値を使用して、各予測子の最大次数を指定します。モデルには交互作用項が含まれますが、各交互作用項の次数は、指定された次数の最大値を超えません。たとえば、"poly13" には、切片、x1x2x22x23x1*x2 および x1*x22 の各項が含まれます。x1 および x2 はそれぞれ 1 番目および 2 番目の予測子です。
  • モデル内の項を指定する t 行 (p + 1) 列の行列、つまり項の行列t は項の数、p は予測子変数の数であり、+1 は応答変数に相当します。項行列は、予測子の個数が多いときに項をプログラムで生成する場合に便利です。

  • 次の形式の文字ベクトルまたは string スカラー

    'Y ~ terms',

    ここで、termsウィルキンソンの表記法で表されます。式の変数名は、有効な MATLAB 識別子でなければなりません。

例: 'Upper','quadratic'

データ型: char | string | single | double

情報の表示に関する制御。'Verbose' と以下のいずれかの値から構成されるコンマ区切りのペアとして指定します。

  • 0 — すべての表示を抑制します。

  • 1 — 各ステップで実行されるアクションを表示します。

  • 2 — 評価プロセスと、各ステップで実行されるアクションを表示します。

例: 'Verbose',2

出力引数

すべて折りたたむ

一般化線形回帰モデル。GeneralizedLinearModel オブジェクトとして返されます。

入力引数 mdl を上書きするには、新しいモデルを mdl に代入します。

mdl = step(mdl);

詳細

すべて折りたたむ

アルゴリズム

  • "ステップワイズ回帰" は、応答変数の説明としての各項の統計的な重要性に基づき、線形または一般化線形モデルの項を追加したり削除するための体系的な方法です。この方法は、まず modelspec を使用して指定される初期モデルから開始して、徐々により大きいまたはより小さいモデルの説明能力を比較していきます。

    関数 step は、変数増減法のステップワイズ回帰を使用して、最終的なモデルを決定します。各ステップで、名前と値のペアの引数 'Criterion' の値に基づいて、モデルに追加する項またはモデルから削除する項が探索されます。

    線形回帰モデルでは、'Criterion' の既定値は 'sse' です。この場合、LinearModelstepstepwiselm は、各ステップで F 統計量の p 値を使用して、ある項が存在する場合と存在しない場合のモデルを検定します。ある項が現在はモデルにない場合、帰無仮説は、項がモデルに追加された場合に係数ゼロをもつということです。帰無仮説を棄却する十分な証拠がある場合、その項がモデルに追加されます。逆に、ある項がモデルに現在ある場合、帰無仮説は、その項が係数ゼロをもつことです。帰無仮説を棄却する十分な証拠がない場合、その項がモデルから削除されます。

    'Criterion''sse' である場合、ステップワイズ回帰では以下のステップが実行されます。

    1. 初期モデルを当てはめます。

    2. 使用可能な一連の項の中でモデルに含まれていないものを調べます。いずれかの項に対する p 値が開始許容誤差より小さい場合 (つまり、モデルに追加すると係数がゼロになる可能性が低い場合)、p 値が最小である項を追加し、このステップを繰り返します。それ以外の場合、ステップ 3 を実行します。

    3. モデルに含まれている使用可能な項のいずれかに対する p 値が終了許容誤差より大きい場合 (つまり、係数がゼロになるという仮説を棄却できない場合)、p 値が最大である項を削除してステップ 2 に戻ります。それ以外の場合、このプロセスを終了します。

    高い次数の項は、その項のサブセットである低い次数の項のすべてもモデルに含まれている場合を除き、どの段階でも追加されません。たとえば、X1X2^2 の両方が既にモデルに含まれている場合を除き、X1:X2^2 という項の追加は試行されません。同様に、高い次数の項がモデルに残っている場合、そのサブセットである低い次数の項は削除されません。たとえば、X1:X2^2 がモデルに残っている場合、X1 または X2^2 の削除は試行されません。

    一般化線形モデルでは、'Criterion' の既定値は 'Deviance' です。GeneralizedLinearModelstepstepwiseglm は、同様の手順に従って項を追加または削除します。

    名前と値のペアの引数 'Criterion' を使用して、他の基準を指定できます。たとえば、赤池情報量基準、ベイズ情報量基準、決定係数または自由度調整済み決定係数の値の変化を、項の追加または削除の基準として指定できます。

    初期モデルに含まれている項と、項の追加および削除を行う順序によって、同じ一連の項から異なるモデルが構築される可能性があります。どのステップでもモデルが改良されなくなると、この関数は終了します。ただし、異なる初期モデルまたはステップの順序を使用しても、近似が向上するという保証はありません。この意味において、ステップワイズ モデルは、ローカルでは最適でもグローバルでは最適ではないことがあります。

  • step では、カテゴリカル予測子が次のように扱われます。

    • L 個の水準 (カテゴリ) があるカテゴリカル予測子をもつモデルには、L – 1 個の指標変数が含まれています。1 番目のカテゴリが基準水準として使用されるので、基準水準に対する指標変数はモデルに含まれません。カテゴリカル予測子のデータ型が categorical である場合、categories を使用してカテゴリの順序をチェックし、reordercats を使用してカテゴリを並べ替えることにより、基準水準をカスタマイズできます。指標変数の作成の詳細については、ダミー変数の自動作成を参照してください。

    • step は、L – 1 個の指標変数のグループを単一の変数として扱います。指標変数を個別の予測子変数として扱うには、dummyvar を使用して指標変数を手動で作成します。そして、モデルを当てはめるときに、カテゴリカル変数の基準水準に対応するものを除く指標変数を使用します。カテゴリカル予測子 X について dummyvar(X) のすべての列と切片項を予測子として指定した場合、計画行列はランク落ちとなります。

    • L 個の水準をもつカテゴリカル予測子と連続予測子の間の交互作用項は、L – 1 個の指標変数と連続予測子の要素単位の積から構成されます。

    • L 個の水準をもつカテゴリカル予測子と M 個の水準をもつカテゴリカル予測子の間の交互作用項は、2 つのカテゴリカル予測子の水準について可能なすべての組み合わせを含めるため、(L – 1)*(M – 1) 個の指標変数から構成されます。

    • 指標の二乗はそれ自体に等しいので、より次数が高い項をカテゴリカル予測子に対して指定することはできません。

    したがって、step がカテゴリカル予測子を追加または削除する場合、実際には指標変数のグループが一度に追加または削除されます。同様に、カテゴリカル予測子が含まれている交互作用項を step が追加または削除する場合、実際には、カテゴリカル予測子が含まれている交互作用項のグループが追加または削除されます。

  • step は、tblX および Y に含まれている NaN'' (空の文字ベクトル)、"" (空の string)、<missing>、および <undefined> 値を欠損値と見なします。step は、欠損値がある観測値を当てはめで使用しません。当てはめたモデルの ObservationInfo プロパティは、step が各観測値を当てはめで使用したかどうかを示します。

代替機能

  • stepwiseglm を使用して開始モデルの項を指定し、項の追加や削除が有益ではなくなるまでモデルの改善を続けます。

  • 特定の項を追加または削除するには、addTerms または removeTerms を使用します。

拡張機能

すべて展開する

バージョン履歴

R2012a で導入