ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

fitglme

一般化線形混合効果モデルの近似

説明

glme = fitglme(tbl,formula) は一般化線形混合効果モデル glme を返します。モデルは formula によって指定し、テーブルまたはデータセット配列の予測子変数 tbl に近似されます。

glme = fitglme(tbl,formula,Name,Value) は、1 つ以上の Name,Value のペアの引数によって指定された追加オプションを使用して一般化線形混合効果モデルを返します。たとえば、応答の分布、リンク関数、変量効果の項の共分散パターンを指定できます。

すべて折りたたむ

標本データを読み込みます。

load mfr

このシミュレーションされたデータは、世界中で 50 の工場を操業している製造企業から取得しており、各工場が完成品の生産のためにバッチ処理を実行しています。同社は各バッチの欠陥数を減少させるために新たな製造プロセスを開発しました。新しいプロセスの効果を検定する実験のため、参加させる 20 件の工場を無作為に選びました。10 工場では新プロセスを実施しますが、残りの 10 工場では旧プロセスの実行を続けます。各 20 工場で、同社は 5 つのバッチ (合計 100 バッチ) を実行し以下のデータを記録しました。

  • 新しいプロセスがバッチに使用されたかどうかを示すフラグ (newprocess)

  • 各バッチの処理時間。時間単位 (time)

  • バッチの温度。摂氏 (temp)

  • バッチに使用する化学薬品の供給業者を示すカテゴリカル変数 (supplier)

  • バッチ内の欠陥数 (defects)

またデータに含まれる time_devtemp_dev は、摂氏 20 度で 3 時間の標準プロセスから得られる時間と温度の絶対偏差をそれぞれ表します。

固定効果予測子として newprocesstime_devtemp_dev および supplier を使用して一般化線形混合効果モデルを近似します。工場特有の変動に起因して品質に差がある可能性を考慮するために、factory 別にグループ化された切片の変量効果項を含めます。応答変数 defects はポアソン分布であり、このモデルの適切なリンク関数は対数です。係数の予測にラプラス近似メソッドを使用します。ダミー変数エンコードを 'effects' として指定すると、ダミー変数の係数の合計が 0 になります。

欠陥数はポアソン分布を使用してモデル化できます

defectsijPoisson(μij).

これは一般化線形混合効果モデルに対応します

log(μij)=β0+β1newprocessij+β2time_devij+β3temp_devij+β4supplier_Cij+β5supplier_Bij+bi,

ここで、

  • defectsij は、バッチ j 処理中の工場 i で実行されたバッチで観測された欠陥数です。

  • μij は、バッチ j (j=1,2,...,5) 処理中の工場 i (i=1,2,...,20) に対応する欠陥の平均数です。

  • newprocessijtime_devij および temp_devij は、バッチ j 処理中の工場 i に対応する各変数の測定値です。たとえば newprocessij は、工場 i で実行されたバッチ j 処理中に新プロセスが使用されたかどうかを示します。

  • supplier_Cij および supplier_Bij は効果 (合計はゼロ) の符号化を使用するダミー変数であり、バッチ j 処理中に工場 i で実行されたバッチに対して、それぞれ会社 C または B が加工化学薬品を供給したかどうかを示します。

  • biN(0,σb2) は、工場特有の品質変動に相当する、各工場 i の変量効果の切片です。

glme = fitglme(mfr,'defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)', ...
    'Distribution','Poisson','Link','log','FitMethod','Laplace', ...
    'DummyVarCoding','effects');

モデルを表示します。

disp(glme)
Generalized linear mixed-effects model fit by ML

Model information:
    Number of observations             100
    Fixed effects coefficients           6
    Random effects coefficients         20
    Covariance parameters                1
    Distribution                    Poisson
    Link                            Log   
    FitMethod                       Laplace

Formula:
    defects ~ 1 + newprocess + time_dev + temp_dev + supplier + (1 | factory)

Model fit statistics:
    AIC       BIC       LogLikelihood    Deviance
    416.35    434.58    -201.17          402.35  

Fixed effects coefficients (95% CIs):
    Name                 Estimate     SE          tStat       DF    pValue    
    '(Intercept)'           1.4689     0.15988      9.1875    94    9.8194e-15
    'newprocess'          -0.36766     0.17755     -2.0708    94      0.041122
    'time_dev'           -0.094521     0.82849    -0.11409    94       0.90941
    'temp_dev'            -0.28317      0.9617    -0.29444    94       0.76907
    'supplier_C'         -0.071868    0.078024     -0.9211    94       0.35936
    'supplier_B'          0.071072     0.07739     0.91836    94       0.36078


    Lower        Upper    
       1.1515       1.7864
     -0.72019    -0.015134
      -1.7395       1.5505
      -2.1926       1.6263
     -0.22679     0.083051
    -0.082588      0.22473

Random effects covariance parameters:
Group: factory (20 Levels)
    Name1                Name2                Type         Estimate
    '(Intercept)'        '(Intercept)'        'std'        0.31381 

Group: Error
    Name                      Estimate
    'sqrt(Dispersion)'        1       

Model information 表は標本データの観測値の合計 (100)、固定効果および変量効果係数の数 (それぞれ 6 および 20)、共分散パラメーターの数 (1) を表示しています。また、応答変数は Poisson 分布であり、リンク関数は Log であり、近似メソッドが Laplace であることもわかります。

Formula はウィルキンソンの表記法によるモデル仕様を示します。

Model fit statistics 表はモデルの適合度の評価に使用された統計を表します。これには赤池情報量基準 (AIC)、ベイズ情報量基準 (BIC) 値、対数尤度 (LogLikelihood) および逸脱度 (Deviance) の値が含まれます。

Fixed effects coefficients 表は、fitglme が 95% の信頼区間を返したことを示します。これには固定効果予測子ごとに 1 行が含まれ、各列にはその予測子に対応する統計が含まれます。列 1 (Name) には各固定効果係数の名前が含まれ、列 2 (Estimate) にはその推定値が含まれ、列 3 (SE) には係数の標準誤差が含まれます。列 4 (tStat) には、係数が 0 に等しいという仮説検定のための t 統計量が含まれています。列 5 (DF) と列 6 (pValue) にはそれぞれ、t 統計量に対応する自由度と p 値が含まれています。最後の 2 列 (Lower および Upper) には、各固定効果係数の 95% 信頼区間の下限と上限がそれぞれ表示されます。

Random effects covariance parameters は各グループ化変数 (ここでは factory のみ) の表を表示します。これにはレベルの総数 (20)、共分散パラメーターの型および推定値が含まれます。ここでの std は、工場の予測子に関連付けられている変量効果の標準偏差が fitglme から返されることを示します。この推定値は 0.31381 です。また、誤差パラメーターの型 (ここでは分散パラメーターの平方根) およびその推定値 1 を含む表も表示します。

fitglme により生成される標準表示は変量効果パラメーターの信頼区間を指定しません。covarianceParameters を使用して、これらの値を計算し表示します。

入力引数

すべて折りたたむ

入力データ。応答変数、予測子変数およびグループ化変数を含みます。テーブルまたはデータセット配列として指定します。予測子変数は、連続変数またはグループ化変数にすることができます (グループ化変数を参照してください)。formula を使用して、変数のモデルを指定しなければなりません。

モデル仕様の式。'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)' という形式の文字ベクトルまたは string スカラーを指定します。この式では大文字小文字が区別されます。詳細は、を参照してください。

例: 'y ~ treatment + (1|block)'

名前と値のペアの引数

オプションの Name,Value 引数のコンマ区切りペアを指定します。Name は引数名で、Value は対応する値です。Name は引用符で囲まなければなりません。Name1,Value1,...,NameN,ValueN のように、複数の名前と値のペアの引数を、任意の順番で指定できます。

例: 'Distribution','Poisson','Link','log','FitMethod','Laplace','DummyVarCoding','effects' は応答変数分布をポアソン、リンク関数を対数、近似メソッドをラプラスとして指定し、係数の合計が 0 であるダミー変数コーディングを指定します。

二項分布の試行回数、つまり標本サイズ。スカラー値、応答と同じ長さのベクトルまたは入力テーブル内の変数名で構成される、コンマ区切りのペアとして指定します。変数名を指定する場合、変数は応答と同じ長さでなければなりません。BinomialSizeDistribution パラメーターが 'binomial' のときのみ適用されます。

BinomialSize がスカラー値の場合は、すべての観測が同じ試行回数であることを意味します。

データ型: single | double

収束における制約のないパラメーターに関して、目的関数のヘッシアンの正定性をチェックするインジケーター。'CheckHessian' と、false または true で構成されるコンマ区切りのペアとして指定します。既定値は false です。

解の最適性を確認する場合や、共分散パラメーターの個数に関してモデルのパラメーターが多すぎるかどうかを判定する場合、'CheckHessian' として true を指定します。

'FitMethod''MPL' または 'REMPL' として指定する場合、固定効果の共分散および共分散パラメーターは、疑似尤度の最後の反復からの近似線形混合効果モデルに基づいています。

例: 'CheckHessian',true

推定パラメーターの共分散計算メソッド。'CovarianceMethod' および 'conditional' または 'JointHessian' のいずれかで構成されるコンマ区切りのペアとして指定します。'conditional' を指定すると、fitglme は推定共分散パラメーターが与えられる場合の固定効果の共分散に、近似を高速に計算します。共分散パラメーターの共分散は計算されません。'JointHessian' を指定すると、fitglme はラプラシアン対数尤度を使用して観測された情報行列により、固定効果の結合共分散および共分散パラメーターを計算します。

'FitMethod''MPL' または 'REMPL' として指定する場合、固定効果の共分散および共分散パラメーターは、疑似尤度の最後の反復からの近似線形混合効果モデルに基づいています。

例: 'CovarianceMethod','JointHessian'

変量効果の共分散行列のパターン。'CovariancePattern''FullCholesky''Isotropic''Full''Diagonal''CompSymm'、対称正方 logical 行列、string 配列、文字ベクトルが格納されている cell 配列、または logical 行列が格納されている cell 配列から構成されるコンマ区切りのペアとして指定します。

変量効果の項が R 個ある場合、'CovariancePattern' の値は長さ R の string 配列または cell 配列でなければなりません。配列の各要素 r では、r 番目の変量効果の項に関連付けられている変量効果ベクトルの共分散行列のパターンを指定します。各要素のオプションは以下のとおりです。

説明
'FullCholesky'コレスキー パラメーター表現を使用したフルの共分散行列。fitglme は、共分散行列のすべての要素を推定します。
'Isotropic'

分散が等しい対角共分散行列。つまり、共分散行列の非対角要素は 0 に制約され、対角要素は等価に制約されます。たとえば、等方性共分散構造をもつ変量効果の項が 3 つある場合、この共分散行列は次のようになります。

(σb2000σb2000σb2)

σ21 は、変量効果項の共通分散です。

'Full'対数コレスキー パラメーター表現を使用したフルの共分散行列。fitlme は、共分散行列のすべての要素を推定します。
'Diagonal'

対角共分散行列。つまり、共分散行列の非対角要素は 0 に制約されます。

(σb12000σb22000σb32)

'CompSymm'

複合対称構造。つまり、対角線上の共通分散とすべての変量効果間の等しい相関です。たとえば、複合対称構造の共分散行列をもつ変量効果の項が 3 つある場合、この共分散行列は次のようになります。

(σb12σb1,b2σb1,b2σb1,b2σb12σb1,b2σb1,b2σb1,b2σb12)

σ2b1 は変量効果項の共通分散、σb1,b2 は任意の 2 つの変量効果項の間の共通共分散です。

PAT対称正方 logical 行列。'CovariancePattern' が行列 PAT によって定義されており、PAT(a,b) = false の場合、対応する共分散行列の要素 (a,b) は 0 に制約されます。

スカラー 変量効果の項の場合、既定値は 'Isotropic' です。それ以外の場合は、既定値は 'FullCholesky' です。

例: 'CovariancePattern','Diagonal'

例: 'CovariancePattern',{'Full','Diagonal'}

データ型: char | string | logical | cell

'binomial' および 'poisson' 分布の分散パラメーターを計算するインジケーター。'DispersionFlag' と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

説明
true標準誤差を計算するときに分散パラメーターを推定する
false標準誤差を計算するときに 1.0 の理論値を使用する

'DispersionFlag''FitMethod''MPL' または 'REMPL' のときのみ適用されます。

近似関数は常に他の分布の分散を予測します。

例: 'DispersionFlag',true

応答変数の分布。'Distribution' と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

説明
'Normal'正規分布
'Binomial'二項分布
'Poisson'ポアソン分布
'Gamma'ガンマ分布
'InverseGaussian'逆ガウス分布

例: 'Distribution','Binomial'

カテゴリカル変数から作成されたダミー変数に対して使用するコーディング。'DummyVarCoding' と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

説明
'reference'既定の設定。0 に設定された最初のカテゴリの係数。
'effects'合計 0 の係数。
'full'各カテゴリに対して 1 つのダミー変数。

例: 'DummyVarCoding','effects'

変量効果の経験的ベイズ推定に使用されるメソッド。'EBMethod' および次のうちいずれかから構成されるコンマ区切りのペアで指定します。

  • 'Auto'

  • 'LineSearchNewton'

  • 'TrustRegion2D'

  • 'fsolve'

'Auto''LineSearchNewton' と類似していますが異なる収束基準を使用しているため、反復的な進捗を表示しません。'Auto' および 'LineSearchNewton' は非正準リンク関数により失敗する可能性があります。非正準リンク関数に関しては、'TrustRegion2D' または 'fsolve' が推奨されます。'fsolve' を使用するには Optimization Toolbox™ が必要です。

例: 'EBMethod','LineSearchNewton'

経験的ベイズ最適化のオプション。'EBOptions' および次を含む構造体で構成されるコンマ区切りのペアで指定します。

説明
'TolFun'勾配ノルムの相対許容誤差。既定値は 1e-6 です。
'TolX'ステップ サイズの絶対許容誤差。既定値は 1e-8 です。
'MaxIter'最大反復回数。既定値は 100 です。
'Display''off''iter' または 'final'。既定値は 'off' です。

EBMethod'Auto''FitMethod''Laplace' の場合、TolFun はモデルの線形予測子の相対許容誤差であり、'Display' オプションは適用されません。

'EBMethod''fsolve' の場合、'EBOptions'optimoptions('fsolve') によって作成されたオブジェクトとして指定されなければなりません。

データ型: 構造体

データ内の一般化線形混合効果モデルから除外する行のインデックス。'Exclude' と整数ベクトルまたは論理値のベクトルで構成されるコンマ区切りのペアとして指定します。

たとえば、以下のようにして、近似から 13 番目と 67 番目の行を除外できます。

例: 'Exclude',[13,67]

データ型: single | double | logical

モデル パラメーターの推定メソッド。'FitMethod' と、以下のいずれかで構成されるコンマ区切りのペアとして指定します。

  • 'MPL' — 疑似最尤法

  • 'REMPL' — 制限付き疑似最尤法

  • 'Laplace' — ラプラス近似を使用した最尤法

  • 'ApproximateLaplace' — 固定効果をプロファイルし、ラプラス近似を使用した最尤法

例: 'FitMethod','REMPL'

ApproximateLaplace および Laplace 近似メソッドのパラメーターの初期化に使用される疑似尤度の反復の初期値。'InitPLIterations' と 1 以上の整数値のコンマ区切りのペアとして指定します。

データ型: single | double

条件付き平均の開始値。'MuStart' とスカラー値で構成されるコンマ区切りのペアで指定します。有効な値は以下のとおりです。

応答の分布有効な値
'Normal'(-Inf,Inf)
'Binomial'(0,1)
'Poisson'(0,Inf)
'Gamma'(0,Inf)
'InverseGaussian'(0,Inf)

データ型: single | double

オフセット。'Offset' と n 行 1 列のスカラー値のベクトルをコンマで区切って指定します。n は応答ベクトルの長さです。n 行 1 列のスカラー値のベクトルの変数名を指定することもできます。'Offset' は、係数値が 1.0 に固定されている追加予測子として使用されます。

データ型: single | double

最適化アルゴリズム。'Optimizer' と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

説明
'quasinewton'信頼領域ベースの準ニュートン オプティマイザ―を使用します。statset('fitglme') を使用して、アルゴリズムのオプションを変更できます。オプションを指定しない場合、fitglmestatset('fitglme') の既定のオプションを使用します。
'fminsearch'導関数を使用しない Nelder-Mead メソッドを使用します。optimset('fminsearch') を使用して、アルゴリズムのオプションを変更できます。オプションを指定しない場合、fitglme は、optimset('fminsearch') の既定のオプションを使用します。
'fminunc'直線探索ベースの準ニュートン法を使用します。このオプションを指定するには、Optimization Toolbox がなければなりません。optimoptions('fminunc') を使用して、アルゴリズムのオプションを変更します。オプションを指定しない場合、fitglmeoptimoptions('fminunc') の既定のオプションを使用します。'Algorithm''quasi-newton' に設定されます。

例: 'Optimizer','fminsearch'

最適化アルゴリズムのオプション。'OptimizerOptions'statset('fitglme') によって返される構造体、optimset('fminsearch') によって作成される構造体または optimoptions('fminunc') から返されるオブジェクトで構成されるコンマ区切りのペアとして指定します。

  • 'Optimizer''fminsearch' の場合、optimset('fminsearch') を使用して、アルゴリズムのオプションを変更します。'Optimizer''fminsearch''OptimizerOptions' を設定しない場合、fitglme に使用される既定値は optimset('fminsearch') によって作成される既定のオプションです。

  • 'Optimizer''fminunc' の場合、optimoptions('fminunc') を使用して、最適化アルゴリズムのオプションを変更します。'fminunc' が使用するオプションについては、optimoptions を参照してください。'Optimizer''fminunc''OptimizerOptions' を設定しない場合、fitglme で使用される既定値は optimoptions('fminunc') によって作成された既定のオプションです。'Algorithm''quasi-newton' に設定されます。

  • 'Optimizer''quasinewton' の場合は、statset('fitglme') を使用して、最適化パラメーターを変更します。'Optimizer''quasinewton'statset を使用して最適化パラメーターを変更しない場合、fitglmestatset('fitglme') によって作成された既定のオプションを使用します。

'quasinewton' オプティマイザ―は、statset('fitglme') によって作成された構造体の以下のフィールドを使用します。

目的関数の勾配の相対許容誤差。正のスカラー値として指定します。

ステップ サイズの絶対許容誤差。正のスカラー値として指定します。

許容される最大反復回数。正のスカラー値として指定します。

表示のレベル。'off''iter''final' のいずれかとして指定します。

疑似尤度の反復の最大数 (PL)。'PLIterations' と正の整数値で構成されるコンマ区切りのペアとして指定します。'FitMethod''MPL' または 'REMPL' の場合に PL はモデルの近似に使用されます。他の 'FitMethod' 値については、PL の反復は以降の最適化のパラメーターの初期化に使用されます。

例: 'PLIterations',200

データ型: single | double

疑似尤度の反復の相対許容誤差係数。'PLTolerance' と正のスカラー値によって構成されるコンマ区切りのペアとして指定します。

例: 'PLTolerance',1e-06

データ型: single | double

反復最適化を開始するメソッド。'StartMethod' と以下のいずれかで構成されるコンマ区切りのペアとして指定します。

説明
'default'内部で定義される既定値
'random'ランダムな初期値

例: 'StartMethod','random'

初期近似タイプ。'UseSequentialFitting'false または true のいずれかで構成されるコンマ区切りのペアとして指定します。'UseSequentialFitting'false の場合、すべての最尤法は疑似尤度の反復が 1 以上であれば初期化されます。'UseSequentialFitting'true の場合、疑似尤度の反復による初期値は 'Laplace' 近似の 'ApproximateLaplace' を使用して調整されます。

例: 'UseSequentialFitting',true

画面に最適化プロセスを表示するインジケーター。'Verbose'01 または 2 で構成されるコンマ区切りのペアとして指定します。'Verbose'1 または 2 として指定されている場合、fitglme は反復モデル近似プロセスの進捗を表示します。'Verbose'2 として指定すると、個別の疑似尤度反復から反復最適化情報が表示されます。'Verbose'1 として指定する場合、この表示は省略されます。

'Verbose' の設定は、'OptimizerOptions''Display' フィールドをオーバーライドします。

例: 'Verbose',1

観測値の重み。'Weights' と、非負のスカラー値の n 行 1 列のベクトル (n は観測値の数) で構成されるコンマ区切りのペアとして指定します。応答の分布が二項またはポアソンである場合、'Weights' は正の整数のベクトルでなければなりません。

データ型: single | double

出力引数

すべて折りたたむ

一般化線形混合効果モデル。GeneralizedLinearMixedModel オブジェクトとして指定します。このオブジェクトのプロパティとメソッドについては、GeneralizedLinearMixedModel を参照してください。

詳細

すべて折りたたむ

一般に、モデル仕様の式は 'y ~ terms' という形式の文字ベクトルまたは string スカラーです。一般化線形混合効果モデルでは、この式は 'y ~ fixed + (random1|grouping1) + ... + (randomR|groupingR)' の形式になります。ここで、fixed および random には固定効果および変量効果の項が含まれます。

テーブル tbl に以下のものが格納されていると仮定します。

  • 応答変数 y

  • 連続変数またはグループ化変数である予測子変数 Xj

  • グループ化変数 g1g2、...、gR

ここで、Xj および gr のグループ化変数は、categorical 配列、logical 配列、文字配列、string 配列、または文字ベクトルの cell 配列が可能です。

この場合、'y ~ fixed + (random1|g1) + ... + (randomR|gR)' の形式の式において、項 fixed は固定効果の計画行列 X の仕様に対応し、random1 はグループ化変数 g1 に対応する変量効果の計画行列 Z1 の仕様であり、同様に randomR はグループ化変数 gR に対応する変量効果の計画行列 ZR の仕様です。fixed 項および random 項はウィルキンソンの表記法で表現できます。

ウィルキンソンの表記法は、モデルに存在する因子を記述します。この表記法は、モデルに存在する因子に関係するものであり、それらの因子の乗数 (係数) に関係するものではありません。

ウィルキンソンの表記法標準表記の因子
1定数 (切片) 項
X^kk は正の整数XX2、...、Xk
X1 + X2X1X2
X1*X2X1X2X1.*X2 (X1 および X2 を要素ごとに乗算)
X1:X2X1.*X2 のみ
- X2X2 は含めない
X1*X2 + X3X1X2X3X1*X2
X1 + X2 + X3 + X1:X2X1X2X3X1*X2
X1*X2*X3 - X1:X2:X3X1X2X3X1*X2X1*X3X2*X3
X1*(X2 + X3)X1X2X3X1*X2X1*X3

Statistics and Machine Learning Toolbox™ 表記は、-1 を使用して項を明示的に削除しない限り、常に定数項を含みます。一般化線形混合効果モデルの仕様例は以下のとおりです。

次に例を示します。

説明
'y ~ X1 + X2'切片 X1 および X2 の固定効果。これは、'y ~ 1 + X1 + X2' と等価です。
'y ~ -1 + X1 + X2'X1X2 の切片と固定効果はありません。-1 を含めることによって暗黙的な切片の項は抑制されます。
'y ~ 1 + (1 | g1)'グループ化変数 g1 のレベルごとの切片の固定効果と切片の変量効果の和。
'y ~ X1 + (1 | g1)'固定勾配のランダム切片モデル。
'y ~ X1 + (X1 | g1)'相関があり得るランダムな切片と勾配。これは、'y ~ 1 + X1 + (1 + X1|g1)' と等価です。
'y ~ X1 + (1 | g1) + (-1 + X1 | g1)' 切片と勾配の独立した変量効果項。
'y ~ 1 + (1 | g1) + (1 | g2) + (1 | g1:g2)'g1g2 に対する独立したメイン効果のあるランダムな切片モデル + 独立した交互作用効果。

R2014b で導入