ドキュメンテーション

最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。

CompactGeneralizedLinearModel

パッケージ: classreg.regr

コンパクトな一般化線形回帰モデル クラス

説明

CompactGeneralizedLinearModel は、コンパクトな一般化線形回帰モデル オブジェクトです。モデルのあてはめに使用したデータが格納されていないので、完全な一般化線形回帰モデル (GeneralizedLinearModel) よりメモリ消費が少なくなります。コンパクトなモデルには入力データが格納されていないので、一部のタスクの実行には使用できません。しかし、コンパクトな一般化線形回帰モデルを使用して、新しい入力データで応答を予測することはできます。

tall 配列を処理する場合、あてはめ操作 (fitlmfitglm など) にはコンパクトなオブジェクトが自動的に使用されます。インメモリのテーブルおよび配列を使用するあてはめ操作では、フル オブジェクトが生成されます。compact メソッドを使用して、これらを小さくすることができます。

構築

compactMdl = compact(mdl) は、完全な一般化線形回帰モデル mdl からコンパクトな一般化線形回帰モデル compactMdl を返します。詳細については、compact を参照してください。

入力引数

すべて展開する

完全な一般化線形回帰モデル。GeneralizedLinearModel オブジェクトを指定します。

プロパティ

すべて展開する

このプロパティは読み取り専用です。

係数推定値の共分散行列。p 行 p 列の数値の行列を指定します。p は、あてはめたモデルの係数の個数です。

詳細については、係数の標準誤差と信頼区間を参照してください。

データ型: single | double

このプロパティは読み取り専用です。

係数の名前。対応する項の名前が含まれている文字ベクトルの cell 配列を指定します。

データ型: cell

このプロパティは読み取り専用です。

係数の値。table を指定します。Coefficients には、各係数に対応する 1 つずつの行と次の列が格納されます。

  • Estimate — 推定される係数値

  • SE — 推定の標準誤差

  • tStat — 係数が 0 であるかどうかに対する検定の t 統計量

  • pValue — t 統計量の p 値

係数に対する他の検定を実行するには、anova (線形回帰モデルの場合のみ) または coefTest を使用します。係数推定値の信頼区間を求めるには、coefCI を使用します。

ベクトルとしてこれらの列のいずれかを取得するには、ドット表記を使ってプロパティにインデックスを付けます。たとえば、モデル mdl 内の推定された係数ベクトルを取得するには、次のようにします。

beta = mdl.Coefficients.Estimate

データ型: テーブル

このプロパティは読み取り専用です。

あてはめの逸脱度。数値を指定します。逸脱度は、一方が他方の特別なケースである 2 つのモデルを比較するために役立ちます。2 つのモデルの逸脱度の差異は、2 つのモデル間に推定されるパラメーター数の差異と等しい自由度をもつカイ二乗分布になります。逸脱度の詳細は、逸脱度を参照してください。

データ型: single | double

このプロパティは読み取り専用です。

誤差 (残差) の自由度。推定された係数の個数を観測値の個数から減算した値に等しくなります。正の整数を指定します。

データ型: double

このプロパティは読み取り専用です。

応答の分散のスケール係数。数値を指定します。Dispersion は、分布の分散関数に乗算されます。

たとえば、二項分布の分散関数は p(1–p)/n です。ここで p は確率パラメーターで、n は標本サイズのパラメーターです。Dispersion1 に近い場合、データの分散は二項分布の理論的分散に一致して見えます。Dispersion1 より大きい場合、データは二項分布に比べて "過剰に分散" します。

データ型: double

このプロパティは読み取り専用です。

分散のスケール係数の使用を示すフラグ。論理値を指定します。DispersionEstimated は、fitglmDispersion のスケール係数を使用して Coefficients.SE の係数の標準誤差を計算したかどうかを示すために使用されます。DispersionEstimatedfalse の場合、fitglm は分散の理論値を使用しました。

  • 'binomial' または 'poisson' 分布の場合のみ DispersionEstimated の値は false になる可能性があります。

  • DispersionEstimated を設定するには、fitglm の名前と値のペア DispersionFlag を設定します。

データ型: logical

このプロパティは読み取り専用です。

一般化分布の情報。一般化分布に関連する次のフィールドがある構造体を指定します。

フィールド説明
Name分布の名前。オプションは 'normal''binomial''poisson''gamma' または 'inverse gaussian' です。
DevianceFunction逸脱度の成分をあてはめを行ったパラメーター値とその応答値との関数として計算する関数。
VarianceFunctionあてはめを行ったパラメーター値の関数として分布の理論的分散を計算する関数。DispersionEstimatedtrue である場合、Dispersion は係数の標準誤差を計算するときに分散関数を乗算します。

データ型: 構造体

このプロパティは読み取り専用です。

モデルの情報。LinearFormula オブジェクトを指定します。

ドット表記を使用して、あてはめたモデル mdl の式を表示します。

mdl.Formula

このプロパティは読み取り専用です。

応答値におけるモデルの分布の対数尤度。数値を指定します。平均はモデルからあてはめられ、他のパラメーターはモデルのあてはめに伴って推定されます。

データ型: single | double

このプロパティは読み取り専用です。

モデルの比較基準。次のフィールドがある構造体を指定します。

  • AIC — 赤池情報量基準。AIC = –2*logL + 2*mlogL は対数尤度、m は推定パラメーターの個数です。

  • AICc — 標本サイズについて修正された赤池情報量基準。AICc = AIC + (2*m*(m+1))/(n–m–1)n は観測値の個数です。

  • BIC — ベイズ情報量基準。BIC = –2*logL + m*log(n)

  • CAIC — 一貫した赤池情報量基準。CAIC = –2*logL + m*(log(n)+1)

情報量基準は、同じデータにあてはめた複数のモデルを比較するために使用できるモデル選択ツールです。これらの基準は、尤度に基づくモデル近似の尺度であり、複雑度 (特にパラメーター数) に対するペナルティが含まれています。情報量基準が異なるとペナルティの形式が異なります。

複数のモデルを比較した場合に、情報量基準の値が最も小さいモデルが最良近似モデルです。最良近似モデルは、モデルの比較に使用する基準によって変化する可能性があります。

これらの基準値のいずれかをスカラーとして取得するには、ドット表記を使用してプロパティのインデックスを指定します。たとえば、モデル mdl の AIC 値 aic を取得するには、次のようにします。

aic = mdl.ModelCriterion.AIC

データ型: 構造体

このプロパティは読み取り専用です。

モデルの係数の個数。正の整数を指定します。NumCoefficients には、モデルの項がランク落ちとなる場合にゼロに設定される係数が含まれます。

データ型: double

このプロパティは読み取り専用です。

モデル内の推定された係数の個数。正の整数を指定します。NumEstimatedCoefficients には、モデルの項がランク落ちとなる場合にゼロに設定される係数は含まれません。NumEstimatedCoefficients は回帰の自由度です。

データ型: double

このプロパティは読み取り専用です。

近似関数があてはめで使用した観測値の個数。正の整数を指定します。NumObservations は、元の table、データセットまたは行列で指定された観測値の個数から、除外する行数 (名前と値のペアの引数 'Exclude' で設定) または欠損値が含まれている行数を減算した値です。

データ型: double

このプロパティは読み取り専用です。

モデルのあてはめに使用した予測子変数の個数。正の整数を指定します。

データ型: double

このプロパティは読み取り専用です。

入力データに含まれている変数の個数。正の整数を指定します。NumVariables は、元の table またはデータセットに含まれている変数の個数、または予測子行列と応答ベクトルの列の総数です。

NumVariables には、予測子または応答としてモデルのあてはめに使用される変数ではないものも含まれます。

データ型: double

このプロパティは読み取り専用です。

モデルのあてはめに使用した予測子の名前。文字ベクトルの cell 配列を指定します。

データ型: cell

このプロパティは読み取り専用です。

応答変数名。文字ベクトルを指定します。

データ型: char

このプロパティは読み取り専用です。

モデルの決定係数の値。5 つのフィールドがある構造体を指定します。

  • Ordinary — 通常の (自由度未調整) 決定係数

  • Adjusted — 係数の数に対する自由度調整済み決定係数

  • LLR — 対数尤度比

  • Deviance — 逸脱度

  • AdjGeneralized — 一般化された自由度調整済み決定係数

決定係数の値は、モデルによって説明される二乗総和の比率です。通常の決定係数値は、SSR および SST のプロパティに関係します。

Rsquared = SSR/SST = 1 - SSE/SST

これらの値のいずれかをスカラーとして取得するには、ドット表記を使ってプロパティにインデックスを付けます。たとえば、mdl 内の自由度調整済み決定係数は、

r2 = mdl.Rsquared.Adjusted

データ型: 構造体

このプロパティは読み取り専用です。

誤差 (残差) の二乗和。数値を指定します。

ピタゴラスの定理により、次のようになります。

SST = SSE + SSR

SST は二乗総和、SSE は残差平方和、SSR は回帰二乗和です。

データ型: single | double

このプロパティは読み取り専用です。

回帰二乗和。数値を指定します。回帰二乗和は、近似値の平均に対する近似値の偏差二乗和に等しい値です。

ピタゴラスの定理により、次のようになります。

SST = SSE + SSR

SST は二乗総和、SSE は残差平方和、SSR は回帰二乗和です。

データ型: single | double

このプロパティは読み取り専用です。

二乗総和。数値を指定します。二乗総和は、mean(y) に対する応答ベクトル y の偏差二乗和に等しい値です。

ピタゴラスの定理により、次のようになります。

SST = SSE + SSR

SST は二乗総和、SSE は残差平方和、SSR は回帰二乗和です。

データ型: single | double

このプロパティは読み取り専用です。

Variables に格納されている入力変数に関する情報。各変数に対応する 1 つずつの行と次の表で説明されている列がある table を指定します。

説明
Class変数のクラス。'double''categorical' などの文字ベクトルによる cell 配列を指定します。
Range

変数の範囲。ベクトルの cell 配列を指定します。

  • 連続変数 — 2 因子ベクトル [min,max]、最小値と最大値

  • カテゴリカル変数 — 異なる変数値のベクトル

InModelあてはめたモデルにどの変数が含まれているかを示すインジケーター。logical ベクトルを指定します。モデルに変数が含まれている場合、値は true です。
IsCategoricalカテゴリカル変数のインジケーター。logical ベクトルを指定します。変数がカテゴリカルである場合、値は true です。

VariableInfo には、予測子または応答としてモデルのあてはめに使用される変数ではないものも含まれます。

データ型: テーブル

このプロパティは読み取り専用です。

変数の名前。文字ベクトルの cell 配列を指定します。

  • あてはめが table またはデータセットに基づいている場合、このプロパティはその table またはデータセット内の変数の名前を与えます。

  • あてはめが予測行列と応答ベクトルに基づいている場合、近似メソッドの名前と値のペアの引数 'VarNames' によって指定された値が VariableNames に格納されます。'VarNames' の既定値は {'x1','x2',...,'xn','y'} です。

VariableNames には、予測子または応答としてモデルのあてはめに使用される変数ではないものも含まれます。

データ型: cell

メソッド

coefCI一般化線形モデルの係数推定の信頼区間
coefTest一般化線形回帰モデルの係数に対する線形仮説検定
devianceTest逸脱度の分析
disp一般化線形回帰モデルの表示
feval一般化線形回帰モデルの予測の評価
plotSlice近似された一般化線形回帰面を通るスライスのプロット
predict一般化線形回帰モデルの応答予測
random一般化線形回帰モデルの応答のシミュレーション

コピーのセマンティクス

値。値のクラスがコピー操作に与える影響については、オブジェクトのコピー (MATLAB)を参照してください。

すべて折りたたむ

あてはめプロセスに関する一部の情報と標本データを破棄することにより、あてはめ済みの完全な一般化線形回帰モデルのサイズを小さくします。

データをワークスペースに読み込みます。シミュレーションによって得られた標本データには、15,000 個の観測値と 45 個の予測子変数が含まれています。

load(fullfile(matlabroot,'examples','stats','largedata4reg.mat'))

最初の 15 個の予測子変数を使用して、一般化線形回帰モデルをデータにあてはめます。

mdl = fitglm(X(:,1:15),Y)
mdl = 
Generalized linear regression model:
    y ~ [Linear formula with 16 terms in 15 predictors]
    Distribution = Normal

Estimated Coefficients:
                    Estimate          SE         tStat       pValue   
                   ___________    __________    _______    ___________

    (Intercept)         3.2903    0.00010447      31497              0
    x1              -0.0006461    4.9991e-08     -12924              0
    x2             -0.00024739    8.6874e-08    -2847.7              0
    x3             -9.5161e-05    1.1138e-07    -854.38              0
    x4              0.00013143     1.551e-07     847.35              0
    x5               7.163e-05    1.9793e-07      361.9              0
    x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90
    x7             -2.6258e-05    2.5462e-07    -103.13              0
    x8               6.284e-05    2.5633e-07     245.15              0
    x9             -0.00014288     2.817e-07    -507.19              0
    x10            -2.2642e-05    3.0963e-07    -73.127              0
    x11            -6.0227e-05    3.1639e-07    -190.36              0
    x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249
    x13             3.8595e-05    3.5601e-07     108.41              0
    x14             0.00010021    4.0312e-07     248.57              0
    x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55


15000 observations, 14984 error degrees of freedom
Estimated Dispersion: 0.000164
F-statistic vs. constant model: 1.18e+07, p-value = 0

モデルを圧縮します。コンパクトなモデルでは、あてはめプロセスに関する一部の情報と元の標本データが破棄されるので、フル モデルよりメモリ使用量が少なくなります。

compactMdl = compact(mdl)
compactMdl = 
Compact generalized linear regression model:
    y ~ [Linear formula with 16 terms in 15 predictors]
    Distribution = Normal

Estimated Coefficients:
                    Estimate          SE         tStat       pValue   
                   ___________    __________    _______    ___________

    (Intercept)         3.2903    0.00010447      31497              0
    x1              -0.0006461    4.9991e-08     -12924              0
    x2             -0.00024739    8.6874e-08    -2847.7              0
    x3             -9.5161e-05    1.1138e-07    -854.38              0
    x4              0.00013143     1.551e-07     847.35              0
    x5               7.163e-05    1.9793e-07      361.9              0
    x6              4.5064e-06    2.2247e-07     20.257     4.9539e-90
    x7             -2.6258e-05    2.5462e-07    -103.13              0
    x8               6.284e-05    2.5633e-07     245.15              0
    x9             -0.00014288     2.817e-07    -507.19              0
    x10            -2.2642e-05    3.0963e-07    -73.127              0
    x11            -6.0227e-05    3.1639e-07    -190.36              0
    x12             1.1665e-05    3.3921e-07     34.388    1.6995e-249
    x13             3.8595e-05    3.5601e-07     108.41              0
    x14             0.00010021    4.0312e-07     248.57              0
    x15            -6.5674e-06    4.1692e-07    -15.752      1.844e-55


15000 observations, 14984 error degrees of freedom
Estimated Dispersion: 0.000164
F-statistic vs. constant model: 1.18e+07, p-value = 0

拡張機能

R2016b で導入