plotDiagnostics

一般化線形回帰モデルの観測値の診断情報のプロット

ページ内をすべて折りたたむ

構文

plotDiagnostics(mdl)

plotDiagnostics(mdl,plottype)

plotDiagnostics(___,Name,Value)

plotDiagnostics(ax,___)

h = plotDiagnostics(___)

説明

plotDiagnostics は、影響力が大きい観測値および外れ値を識別するための、観測値の診断情報 (てこ比、クックの距離など) のプロットを作成します。

plotDiagnostics(mdl) は、一般化線形回帰モデル (mdl) の観測値のてこ比のプロットを作成します。プロット内の点線は、推奨されるしきい値を表します。

例

plotDiagnostics(mdl,plottype) は、観測値の診断情報のタイプ plottype を指定します。

例

plotDiagnostics(___,Name,Value) では、前の構文におけるいずれかの入力引数の組み合わせに加えて、1 つ以上の名前と値のペアの引数を使用して追加のオプションを指定します。たとえば、データ点のマーカー記号やサイズを指定できます。

plotDiagnostics(ax,___) は、現在の座標軸 (gca) ではなく ax によって指定される座標軸にプロットします。 (R2024a 以降)

h = plotDiagnostics(___) は、プロット内のラインまたは等高線のグラフィックスオブジェクトを返します。プロットの作成後に特定のラインまたは等高線のプロパティを修正するには、h を使用します。プロパティの一覧については、Line のプロパティおよび Contour のプロパティを参照してください。

例

すべて折りたたむ

てこ比とクックの距離の使用による外れ値の検出

ライブスクリプトを開く

当てはめた一般化線形モデルのてこ比のプロットとクックの距離のプロットを作成し、外れ値を求めます。

基となる 2 つの予測子 X(:,1) および X(:,2) のポアソン乱数を使って標本データを生成します。

rng('default') % For reproducibility
rndvars = randn(100,2);
X = [2 + rndvars(:,1),rndvars(:,2)];
mu = exp(1 + X*[1;2]);
y = poissrnd(mu);

ポアソンデータの一般化線形回帰モデルを作成します。

mdl = fitglm(X,y,'y ~ x1 + x2','Distribution','poisson');

てこ比のプロットを作成します。

plotDiagnostics(mdl)
legend('show') % Show the legend

Figure contains an axes object. The axes object with title Case order plot of leverage, xlabel Row number, ylabel Leverage contains 2 objects of type line. One or more of the lines displays its values using only markers These objects represent Leverage, Reference Line.

点線は、推奨されるしきい値 2*p/n を表します。p は係数の数、n は観測値の数です。NumCoefficients および NumObservations プロパティを使用して、しきい値を求めます。

t_leverage = 2*mdl.NumCoefficients/mdl.NumObservations

t_leverage = 
0.0600

てこ比の値がしきい値を超えている観測値を検出します。

find(mdl.Diagnostics.Leverage > t_leverage)

データヒントを使用して観測値の番号を確認することもできます。しきい値のラインより上にあるデータ点を選択すると、データヒントが表示されます。データヒントには、選択した点の x 軸および y 軸の値と、観測値の番号が含まれます。

クックの距離の値をプロットします。

plotDiagnostics(mdl,'cookd')

Figure contains an axes object. The axes object with title Case order plot of Cook's distance, xlabel Row number, ylabel Cook's distance contains 2 objects of type line. One or more of the lines displays its values using only markers These objects represent Cook's distance, Reference Line.

点線は、推奨されるしきい値を表します。しきい値 t_cookd を計算します。

t_cookd = 3*mean(mdl.Diagnostics.CooksDistance')

t_cookd = 
0.0294

クックの距離の値がしきい値を超えている観測値を検出します。

find(mdl.Diagnostics.CooksDistance > t_cookd)

3 つの観測値 (21、65 および 70) は両方の尺度で外れ値ですが、いくつかの点 (9、15、27 および 64) は一方の尺度のみで外れ値です。

入力引数

すべて折りたたむ

`mdl` — 一般化線形回帰モデル
`GeneralizedLinearModel` オブジェクト

一般化線形回帰モデル。fitglm または stepwiseglm を使用して作成した GeneralizedLinearModel オブジェクトとして指定します。

`plottype` — プロットのタイプ
`'leverage'` (既定値) | `'contour'` | `'cookd'`

プロットのタイプ。次の表のいずれかの値を指定します。

値	プロットタイプ	プロット内の点線の基準線	目的
`'contour'`	クックの距離の等高線を重ね合わせた、残差対てこ比	クックの距離の等高線	残差、てこ比およびクックの距離の値が大きい観測値を特定。
`'cookd'`	クックの距離	`3*mean(mdl.Diagnostics.CooksDistance)` によって計算された、推奨されるしきい値	クックの距離の値が大きい観測値を特定。
`'leverage'`	てこ比	`2*p/n` によって計算された、推奨されるしきい値。`p` は係数の数 (`mdl.NumCoefficients`)、`n` は観測値の数 (`mdl.NumObservations`)	てこ比が大きい観測値を特定。

'cookd' および 'leverage' の場合、x 軸は観測値の行番号 (ケース順) です。

mdl の Diagnostics プロパティには、plotDiagnostics がプロットの作成に使用した診断値が格納されます。

観測値の診断情報の詳細については、クックの距離、およびてこ比を参照してください。

`ax` — ターゲットの座標軸
`Axes` オブジェクト

R2024a 以降

ターゲットの座標軸。axes オブジェクトとして指定します。座標軸を指定しない場合、plotDiagnostics は現在の座標軸 (gca) を使用します。

名前と値の引数

すべて折りたたむ

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: 'Color','blue','Marker','o'

メモ

ここでは、グラフィックプロパティの一部だけを紹介しています。完全な一覧については、Line のプロパティを参照してください。指定したプロパティによって、診断データ点の外観が決まります。

`Color` — ラインの色
RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

ラインの色。RGB 3 成分、16 進数カラーコード、あるいは以下の表に記載されているいずれかの色オプションに対応する色の名前または省略名として指定します。

MarkerEdgeColor が "auto" (既定) であり MarkerFaceColor が "auto" である場合、名前と値の引数 Color はマーカーの輪郭の色とマーカーの塗りつぶし色も決定します。

カスタム色の場合は、RGB 3 成分または 16 進数のカラーコードを指定します。

RGB 3 成分は、色の赤、緑、青成分の強度を指定する 3 要素の行ベクトルです。強度は範囲 [0,1] に含まれていなければなりません。たとえば [0.4 0.6 0.7] のようになります。
16 進数のカラーコードは、ハッシュ記号 (#) で始まり、0 から F の範囲にある 16 進数が 3 つまたは 6 つ続く、string スカラーまたは文字ベクトルです。この値では、大文字と小文字は区別されません。したがって、カラーコード "#FF8800"、"#ff8800"、"#F80"、"#f80" は等価です。

あるいは、一部の一般的な色を名前で指定できます。次の表は、名前が付いた色のオプション、等価な RGB 3 成分、および 16 進数カラーコードの一覧です。

色の名前	省略名	RGB 3 成分	16 進数のカラーコード	外観
`"red"`	`"r"`	`[1 0 0]`	`"#FF0000"`
`"green"`	`"g"`	`[0 1 0]`	`"#00FF00"`
`"blue"`	`"b"`	`[0 0 1]`	`"#0000FF"`
`"cyan"`	`"c"`	`[0 1 1]`	`"#00FFFF"`
`"magenta"`	`"m"`	`[1 0 1]`	`"#FF00FF"`
`"yellow"`	`"y"`	`[1 1 0]`	`"#FFFF00"`
`"black"`	`"k"`	`[0 0 0]`	`"#000000"`
`"white"`	`"w"`	`[1 1 1]`	`"#FFFFFF"`
`"none"`	該当なし	該当なし	該当なし	色なし

次の表に、ライトテーマとダークテーマのプロット用の既定のカラーパレットを示します。

パレットパレットの色

パレット	パレットの色
`"gem"` — ライトテーマの既定の設定 R2025a より前: ほとんどのプロットでは、これらの色が既定で使用されます。
`"glow"` — ダークテーマの既定の設定

"gem" — ライトテーマの既定の設定

R2025a より前: ほとんどのプロットでは、これらの色が既定で使用されます。

Sample of the "gem" color palette

"glow" — ダークテーマの既定の設定

Sample of the "glow" color palette

これらのパレットの RGB 3 成分と 16 進数カラーコードは、orderedcolors 関数と rgb2hex 関数を使用して取得できます。たとえば、"gem" パレットの RGB 3 成分を取得し、それらを 16 進数カラーコードに変換します。

RGB = orderedcolors("gem");
H = rgb2hex(RGB);

R2023b より前: RGB = get(groot,"FactoryAxesColorOrder") を使用して RGB 3 成分を取得します。

R2024a より前: H = compose("#%02X%02X%02X",round(RGB*255)) を使用して 16 進数カラーコードを取得します。

例: Color="blue"

データ型: single | double | string | char

`LineWidth` — ラインの幅
正の値

ラインの幅。ポイント単位の正の値として指定します。ラインにマーカーがある場合、ライン幅はマーカーエッジにも影響を与えます。

例: LineWidth=0.75

データ型: single | double

`Marker` — マーカー記号
`"o"` | `"+"` | `"*"` | `"."` | `"x"` | ...

マーカー記号。次の表のいずれかの値として指定します。

マーカー	説明	結果として得られるマーカー
`"o"`	円
`"+"`	プラス記号
`"*"`	アスタリスク
`"."`	点
`"x"`	十字
`"_"`	水平線
`"\|"`	垂直線
`"square"`	正方形
`"diamond"`	菱形
`"^"`	上向き三角形
`"v"`	下向き三角形
`">"`	右向き三角形
`"<"`	左向き三角形
`"pentagram"`	星形五角形
`"hexagram"`	星形六角形
`"none"`	マーカーなし	該当なし

例: Marker="+"

データ型: string | char

`MarkerEdgeColor` — マーカーの輪郭の色
`"auto"` (既定値) | `"none"` | RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

マーカーの輪郭の色。RGB 3 成分、16 進数カラーコード、あるいは名前と値の引数 Color に記載されているいずれかの色オプションに対応する色の名前または省略名として指定します。

既定値 "auto" では、名前と値の引数 Color を使用して指定されるものと同じ色が使用されます。色なしとして "none" を指定することもできます。

例: MarkerEdgeColor="blue"

データ型: single | double | string | char

`MarkerFaceColor` — マーカーの塗りつぶし色
`"none"` (既定値) | `"auto"` | RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

マーカーの塗りつぶしの色。RGB 3 成分、16 進数カラーコード、あるいは名前と値の引数 Color に記載されているいずれかの色オプションに対応する色の名前または省略名として指定します。既定値の "none" は色なしを指定します。

値 "auto" では、名前と値の引数 Color を使用して指定されるものと同じ色が使用されます。

例: MarkerFaceColor="blue"

データ型: single | double | string | char

`MarkerSize` — マーカーサイズ
`6` (既定値) | 正の値

マーカーのサイズ。ポイント単位の正の値として指定します。

例: MarkerSize=2

データ型: single | double

出力引数

すべて折りたたむ

`h` — グラフィックスオブジェクト
グラフィックス配列

プロット内のラインまたは等高線に対応するグラフィックスオブジェクト。グラフィックス配列として返されます。グラフィックスオブジェクトのプロパティのクエリと設定を行うには、ドット表記を使用します。詳細については、Line のプロパティおよび Contour のプロパティを参照してください。

名前と値のペアの引数を使用して、1 番目のグラフィックスオブジェクト h(1) に対応する、診断データ点の外観を指定できます。

詳細

すべて折りたたむ

クックの距離

クックの距離は当てはめた値におけるスケーリングされた変化であり、予測子変数に対する観測値から外れ値を特定する場合に便利です。クックの距離は、当てはめた応答値に対する各観測値の影響を示します。平均のクックの距離の 3 倍を超える観測は外れ値の可能性があります。

観測値 i のクックの距離 D_i は

$D_{i} = w_{i} \frac{e_{i}^{2}}{p \hat{φ}} \frac{h_{i i}}{{(1 - h_{i i})}^{2}},$

ここで

$\hat{φ}$ は分散パラメーター (推定値または理論値) です。
e_i は線形予測子の残差 $g (y_{i}) - x_{i} \hat{β}$ です。ここで
- g はリンク関数です。
- y_i は、観測された応答です。
- x_i は、観測です。
- $\hat{β}$ は推定した係数ベクトルです。
p は回帰モデルの係数の数です。
h_ii は、ハット行列 H の i 番目の対角要素です。

てこ比

てこ比は、入力空間で特定の観測の位置が原因で発生した、回帰予測におけるその観測値の影響を測定します。

観測値 i のてこ比はハット行列 H の i 番目の対角項 h_ii の値です。てこ比値の合計は p (回帰モデルの係数の個数) なので、てこ比が p/n (n は観測値の個数) を大幅に超える場合、観測値 i は外れ値であると考えることができます。

ハット行列

ハット行列は、応答観測値のベクトルを予測値のベクトルに射影する射影行列です。

ハット行列 H は、データ行列 X の項と対角重み付け行列 W の項で定義されます。

H = X(X^TWX)^–1X^TW^T.

W には対角要素 w_i があります。

$w_{i} = \frac{g^{'} (μ_{i})}{\sqrt{V (μ_{i})}},$

ここで

g は y_i を x_ib にマップするリンク関数です。
$g^{'}$ はリンク関数 g の導関数です。
V は分散関数です。
μ_i は i 番目の平均です。

対角要素 H_ii は次を満たします

$\begin{array}{l} 0 \leq h_{i i} \leq 1 \\ \sum_{i = 1}^{n} h_{i i} = p, \end{array}$

ここで n は観測の数 (X の行) であり、p は回帰モデルの係数の数です。

ヒント

データカーソルを使用すると、選択したプロットの点の値がデータヒント (データ点の横にある小さいテキストボックス) に表示されます。データヒントには、選択した点の x 軸および y 軸の値と、観測値の名前または番号が含まれます。
事前設定済みの凡例を表示するには、legend('show') を使用します。

代替機能

GeneralizedLinearModel オブジェクトには、複数のプロット関数が用意されています。

モデルを検証するときに、問題があるデータを探し、各観測値の効果を理解するには、plotDiagnostics を使用します。また、モデルの残差を分析するには、plotResiduals を使用します。
モデルを当てはめた後で、特定の予測子の効果を理解するには、plotPartialDependence を使用します。また、予測曲面を通るスライスをプロットするには、plotSlice を使用します。

参照

[1] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. Applied Linear Statistical Models, Fourth Edition. Chicago: McGraw-Hill Irwin, 1996.

拡張機能

すべて展開する

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2012a で導入

すべて展開する

R2024a: ターゲットの座標軸の指定

プロットのターゲットの座標軸は、入力引数 ax を使用して指定します。

参考

GeneralizedLinearModel | plotResiduals | plotPartialDependence | plotSlice

plotDiagnostics

構文

説明

例

てこ比とクックの距離の使用による外れ値の検出

入力引数

mdl — 一般化線形回帰モデル GeneralizedLinearModel オブジェクト

plottype — プロットのタイプ 'leverage' (既定値) | 'contour' | 'cookd'

ax — ターゲットの座標軸 Axes オブジェクト

名前と値の引数

Color — ラインの色 RGB 3 成分 | 16 進数のカラー コード | 色の名前 | 省略名

LineWidth — ラインの幅 正の値

Marker — マーカー記号 "o" | "+" | "*" | "." | "x" | ...

MarkerEdgeColor — マーカーの輪郭の色 "auto" (既定値) | "none" | RGB 3 成分 | 16 進数のカラー コード | 色の名前 | 省略名

MarkerFaceColor — マーカーの塗りつぶし色 "none" (既定値) | "auto" | RGB 3 成分 | 16 進数のカラー コード | 色の名前 | 省略名

MarkerSize — マーカー サイズ 6 (既定値) | 正の値

出力引数

h — グラフィックス オブジェクト グラフィックス配列

詳細

クックの距離

てこ比

ハット行列

ヒント

代替機能

参照

拡張機能

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。

バージョン履歴

R2024a: ターゲットの座標軸の指定

参考

トピック

`mdl` — 一般化線形回帰モデル
`GeneralizedLinearModel` オブジェクト

`plottype` — プロットのタイプ
`'leverage'` (既定値) | `'contour'` | `'cookd'`

`ax` — ターゲットの座標軸
`Axes` オブジェクト

`Color` — ラインの色
RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

`LineWidth` — ラインの幅
正の値

`Marker` — マーカー記号
`"o"` | `"+"` | `"*"` | `"."` | `"x"` | ...

`MarkerEdgeColor` — マーカーの輪郭の色
`"auto"` (既定値) | `"none"` | RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

`MarkerFaceColor` — マーカーの塗りつぶし色
`"none"` (既定値) | `"auto"` | RGB 3 成分 | 16 進数のカラーコード | 色の名前 | 省略名

`MarkerSize` — マーカーサイズ
`6` (既定値) | 正の値

`h` — グラフィックスオブジェクト
グラフィックス配列

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。