ClassificationDiscriminant

判別分析による分類

説明

ClassificationDiscriminant オブジェクトは、判別分析分類器をカプセル化したもので、データ生成用の混合ガウスモデルになります。ClassificationDiscriminant オブジェクトでは、新しいデータに対する応答を predict メソッドを使用して予測できます。オブジェクトには学習に使用したデータが格納されているため、再代入予測を計算できます。

作成

ClassificationDiscriminant オブジェクトの作成には fitcdiscr を使用します。

プロパティ

すべて展開する

判別分析のプロパティ

`BetweenSigma` — クラス間共分散
読み取り専用: 正方行列

このプロパティは読み取り専用です。

クラス間共分散。p 行 p 列の行列として指定します。ここで、p は予測子の数です。

データ型: double

`Coeffs` — 係数行列
読み取り専用: `k` 行 `k` 列の構造体 | `[]`

このプロパティは読み取り専用です。

係数行列。k 行 k 列の構造体として指定します。ここで、k はクラスの数です。分類器の作成時に fitcdiscr で名前と値のペア FillCoeffs を 'off' に設定した場合、Coeffs は空 ([]) になります。

Coeffs(i,j) には、クラス i と j の間の線形境界または 2 次境界の係数が格納されます。Coeffs(i,j) のフィールドは次のとおりです。

DiscrimType
Class1 — ClassNames(i)
Class2 — ClassNames(j)
Const — スカラー
Linear — p 個の成分をもつベクトル (p は X の列数)
Quadratic — p 行 p 列の行列 (2 次の DiscrimType 用)

クラス i とクラス j の間の境界方程式は次のようになります。

Const + Linear * x + x' * Quadratic * x = 0

ここで、x は長さ p の列ベクトルです。

データ型: struct

`Delta` — 線形判別モデルのデルタしきい値
非負のスカラー

線形判別モデルのデルタしきい値の値。非負のスカラーとして指定します。obj の係数の大きさが Delta よりも小さい場合、この係数は obj で 0 に設定されるため、対応する予測子をモデルから削除できます。Delta を高い値に設定すると、削除できる予測子が多くなります。

2 次判別モデルでは Delta は 0 でなければなりません。

Delta を変更するには、ドット表記 obj.Delta = newDelta を使用します。

データ型: double

`DeltaPredictor` — モデルに含める予測子に対応するデルタ係数の最小値
読み取り専用: 長さ `p` の行ベクトル

このプロパティは読み取り専用です。

モデルに含める予測子に対応するデルタ係数の最小値。長さ p の行ベクトルとして指定します。ここで、p は obj の予測子の数です。DeltaPredictor(i) < Delta の場合、モデルの係数 i は 0 になります。

obj が 2 次判別分析モデルの場合、DeltaPredictor のすべての要素が 0 になります。

データ型: double

`DiscrimType` — 判別タイプ
文字ベクトル

判別タイプ。文字ベクトルまたは string として指定します。使用可能な値は次のとおりです。

'linear'
'quadratic'
'diagLinear'
'diagQuadratic'
'pseudoLinear'
'pseudoQuadratic'

DiscrimType を変更するには、ドット表記 obj.DiscrimType = newDiscrimType を使用します。線形タイプ間または 2 次タイプ間での変更は可能ですが、線形タイプと 2 次タイプの間の変更はできません。

データ型: char | string

`Gamma` — ガンマ正則化パラメーター
`0` ～ `1` のスカラー

ガンマ正則化パラメーターの値。0 ～ 1 のスカラーとして指定します。Gamma を変更するには、ドット表記 obj.Gamma = newGamma を使用します。

線形判別に対して 1 を設定すると、判別タイプが 'diagLinear' に設定されます。
線形判別に対して MinGamma ～ 1 の値を設定すると、判別タイプが 'linear' に設定されます。
MinGamma プロパティの値より小さい値は設定できません。
2 次判別に対しては、0 (DiscrimType 'quadratic') または 1 (DiscrimType 'diagQuadratic') のいずれかを設定できます。

データ型: double

`LogDetSigma` — クラス内共分散行列の行列式の対数
読み取り専用: スカラー | ベクトル

このプロパティは読み取り専用です。

クラス内共分散行列の行列式の対数。スカラーまたはベクトルとして返されます。LogDetSigma の型は判別タイプによって異なります。

線形判別分析の場合はスカラー
2 次判別分析の場合は長さ K のベクトル (K はクラスの数)

データ型: double

`MinGamma` — 相関行列が可逆になるガンマパラメーターの最小値
読み取り専用: 非負のスカラー

このプロパティは読み取り専用です。

相関行列が可逆になるガンマパラメーターの最小値。非負のスカラーとして指定します。相関行列が特異でない場合、MinGamma は 0 です。

データ型: double

`ModelParameters` — モデルの学習に使用したパラメーター
読み取り専用: `DiscriminantParams` オブジェクト

このプロパティは読み取り専用です。

モデルの学習に使用したパラメーター。DiscriminantParams オブジェクトとして返されます。返されるパラメーターには次のプロパティがあります。

プロパティ	値
`DiscrimType`	`'linear'` `'quadratic'` `'diagLinear'` `'diagQuadratic'` `'pseudoLinear'` `'pseudoQuadratic'`
`Gamma`	`0` ～ `1` のスカラー
`Delta`	非負のスカラー
`FillCoeffs`	logical スカラー
`SaveMemory`	logical スカラー
`Version`	スカラー
`Method`	`'Discriminant'`
`Type`	`'classification'`

予測子のプロパティ

`CategoricalPredictors` — カテゴリカル予測子のインデックス
読み取り専用: `[]`

このプロパティは読み取り専用です。

カテゴリカル予測子のインデックス。常に空 ([]) です。

`Mu` — クラス平均
読み取り専用: 実数の `K` 行 `p` 列の行列

このプロパティは読み取り専用です。

クラス平均。実数値の K 行 p 列の行列として指定します。K はクラスの数、p は予測子の数です。Mu の各行は、対応するクラスの多変量正規分布の平均を表します。クラスインデックスは、ClassNames 属性にあります。

データ型: double

`PredictorNames` — 予測子変数の名前
読み取り専用: cell 配列

このプロパティは読み取り専用です。

予測子変数の名前。cell 配列として返されます。名前の順序は、学習データ X に現れる順序になります。

データ型: cell

`Sigma` — クラス内共分散
読み取り専用: 数値配列

このプロパティは読み取り専用です。

クラス内共分散。数値配列として返されます。次元は DiscrimType によって異なります。

'linear' (既定) — p 行 p 列のサイズの行列 (p は予測子の数)
'quadratic' — p×p×K のサイズの配列 (K はクラスの数)
'diagLinear' — 長さ p の行ベクトル
'diagQuadratic' — 1×p×K のサイズの配列
'pseudoLinear' — p 行 p 列のサイズの行列
'pseudoQuadratic' — p×p×K のサイズの配列

データ型: double

`X` — 予測子の値
読み取り専用: 実数行列

このプロパティは読み取り専用です。

予測子の値。実数行列として返されます。X の各列が 1 つの予測子 (変数) を表し、各行が 1 つの観測値を表します。

データ型: single | double

`Xcentered` — クラス平均を減算した `X` のデータ
読み取り専用: 実数行列

このプロパティは読み取り専用です。

クラス平均を減算した X のデータ。実数行列として返されます。Y(i) のクラスが j の場合、次のようになります。

Xcentered(i,:) = X(i,:) – Mu(j,:) (1)

ここで、Mu はクラス平均のプロパティです。

データ型: single | double

応答のプロパティ

`ClassNames` — 学習データ `Y` 内のクラスの名前
読み取り専用: categorical 配列 | 文字ベクトルの cell 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル

このプロパティは読み取り専用です。

重複を削除した学習データ Y 内のクラスの名前。ClassNames のデータ型は学習データ内の引数 Y のデータと同じです。ClassNames のデータ型は次のいずれかになります。

categorical 配列
文字ベクトルの cell 配列
文字配列
logical ベクトル
数値ベクトル

(string 配列は文字ベクトルの cell 配列として扱われます)。

`ResponseName` — 応答変数 `Y` の名前
読み取り専用: 文字ベクトル

このプロパティは読み取り専用です。

応答変数 Y の名前。文字ベクトルとして返されます。

データ型: char | string

`Y` — 行の分類
読み取り専用: 分類変数

このプロパティは読み取り専用です。

行の分類。X と同じ行数の categorical 配列、文字ベクトルの cell 配列、文字配列、logical ベクトル、または数値ベクトルとして返されます。Y の各行は、X の対応する行の分類を表します。

その他のデータのプロパティ

`HyperparameterOptimizationResults` — ハイパーパラメーターの交差検証最適化の説明
読み取り専用: `BayesianOptimization` オブジェクト | table

このプロパティは読み取り専用です。

ハイパーパラメーターの交差検証最適化の説明。BayesianOptimization オブジェクト、またはハイパーパラメーターと関連する値の table として返されます。モデルを作成するときに名前と値の引数 OptimizeHyperparameters が空以外であった場合、このプロパティは空以外になります。HyperparameterOptimizationResults の値は、モデル作成時の HyperparameterOptimizationOptions の Optimizer オプションの設定に依存します。

"bayesopt" (既定) — BayesianOptimization クラスのオブジェクト
"gridsearch" または "randomsearch" — 使用したハイパーパラメーター、観測された目的関数の値 (交差検証損失)、および最低 (最良) から最高 (最悪) までの観測値の順位が格納された table

`NumObservations` — 学習データに含まれている観測値の数
読み取り専用: 正の整数

このプロパティは読み取り専用です。

学習データ内の観測値の数。正の整数として返されます。入力データまたは応答データに欠損値がある場合、NumObservations は入力データの行数よりも少なくなることがあります。

データ型: double

`RowsUsed` — 当てはめに使用される元の予測子データ `X` の行
読み取り専用: logical ベクトル

このプロパティは読み取り専用です。

当てはめに使用される元の予測子データ X の行。n 要素の logical ベクトルとして返されます。ここで、n は X の行数です。オブジェクトの作成に X のすべての行を使用する場合、RowsUsed は空の配列 ([]) になります。

データ型: logical

`W` — スケーリングされた観測値の重み
読み取り専用: 長さ `n` の数値ベクトル

このプロパティは読み取り専用です。

スケーリングされた観測値の weights。長さ n の数値ベクトルとして返されます。ここで、n は X の行数です。

データ型: double

他の分類のプロパティ

`Cost` — 点を分類するコスト
正方行列

点を分類するコスト。正方行列として指定します。Cost(i,j) は、真のクラスが i である場合に点をクラス j に分類するコストです (行は真のクラス、列は予測クラスに対応します)。Cost の行と列の順序は、ClassNames のクラスの順序に対応します。Cost の行および列の数は、応答に含まれている一意なクラスの数です。

Cost 行列を変更するには、ドット表記 obj.Cost = costMatrix を使用します。

データ型: double

`Prior` — 各クラスの事前確率
数値ベクトル

各クラスの事前確率。数値ベクトルとして返されます。Prior の要素の順序は、ClassNames のクラスの順序に対応します。

Prior ベクトルを追加または変更するには、ドット表記 obj.Prior = priorVector を使用します。

データ型: double

`ScoreTransform` — スコア変換関数
組み込み関数の名前 | 関数ハンドル | `'none'`

スコア変換関数。組み込みの変換関数を表す文字ベクトルまたは string として指定するか、スコア変換用の関数ハンドルとして指定します。'none' は変換なしを意味します。つまり、'none' は @(x)x と同じ意味になります。組み込みの変換関数の一覧とカスタム変換関数の構文については、fitcdiscr を参照してください。

ドット表記を実装して ScoreTransform 関数を追加または変更するには、次のいずれかを使用します。

cobj.ScoreTransform = 'function'
cobj.ScoreTransform = @function

データ型: char | string | function_handle

オブジェクト関数

`compact`	機械学習モデルのサイズの縮小
`compareHoldout`	新しいデータを使用して 2 つの分類モデルの精度を比較
`crossval`	機械学習モデルの交差検証
`cvshrink`	線形判別の正則化の交差検証
`edge`	判別分析分類器の分類エッジ
`lime`	Local Interpretable Model-agnostic Explanations (LIME)
`logp`	Log unconditional probability density for discriminant analysis classifier
`loss`	判別分析分類器の分類損失
`mahal`	判別分析分類器のクラスの平均に対するマハラノビス距離
`margin`	判別分析分類器の分類マージン
`nLinearCoeffs`	Number of nonzero linear coefficients in discriminant analysis classifier
`partialDependence`	部分依存の計算
`plotPartialDependence`	部分依存プロット (PDP) および個別条件付き期待値 (ICE) プロットの作成
`predict`	判別分析分類器の使用によるラベルの予測
`resubEdge`	判別分析分類器の再代入分類エッジ
`resubLoss`	判別分析分類器の再代入分類損失
`resubMargin`	判別分析分類器の再代入分類マージン
`resubPredict`	再代入による判別分析分類器の観測値の分類
`shapley`	シャープレイ値
`testckfold`	交差検証の反復により 2 つの分類モデルの精度を比較

例

すべて折りたたむ

判別分析モデルの学習

ライブスクリプトを開く

フィッシャーのアヤメのデータセットを読み込みます。

load fisheriris

データセット全体を使用して、判別分析モデルに学習をさせます。

Mdl = fitcdiscr(meas,species)

Mdl = 
  ClassificationDiscriminant
             ResponseName: 'Y'
    CategoricalPredictors: []
               ClassNames: {'setosa'  'versicolor'  'virginica'}
           ScoreTransform: 'none'
          NumObservations: 150
              DiscrimType: 'linear'
                       Mu: [3×4 double]
                   Coeffs: [3×3 struct]


  Properties, Methods

Mdl は ClassificationDiscriminant モデルです。プロパティにアクセスするには、ドット表記を使用します。たとえば、各予測子のグループ平均を表示します。

Mdl.Mu

ans = 3×4

    5.0060    3.4280    1.4620    0.2460
    5.9360    2.7700    4.2600    1.3260
    6.5880    2.9740    5.5520    2.0260

新しい観測値のラベルを予測するには、Mdl と予測子データを predict に渡します。

詳細

すべて展開する

判別分類

判別分析のモデルは次のとおりです。

各クラス (Y) では、多変量正規分布を使用してデータ (X) を生成します。つまり、このモデルは X に混合ガウス分布 (gmdistribution) があることを前提としています。
- 線形判別分析の場合、モデルでは各クラスの共分散は同じで、平均のみ変わります。
- 2 次判別分析の場合、各クラスの平均と共分散の両方が異なります。

predict は、予測される分類コストが最小になるように分類します。

$\hat{y} = \underset{y = 1, ..., K}{\arg \min} \sum_{k = 1}^{K} \hat{P} (k | x) C (y | k),$

ここで

$\hat{y}$ は、予測された分類です。
K は、クラスの数です。
$\hat{P} (k | x)$ は、観測 x のクラス k の事後確率です。
$C (y | k)$ は、真のクラスが k の場合に観測値を y として分類するコストです。

詳細については、判別分析モデルの使用による予測を参照してください。

正則化

正則化とは、効果的な予測モデルを生み出す予測子の小さな集合を見つけ出す過程です。線形判別分析には、γ および δ の 2 つのパラメーターがあり、これらは次のように正則化を制御します。cvshrink は適切なパラメーター値の選択を支援します。

Σ がデータ X の共分散行列を表し、 $\hat{X}$ が中心データ (データ X からクラス別の平均を減算したデータ) であるとします。次のように定義します。

$D = diag ({\hat{X}}^{T} * \hat{X}) .$

正則化した共分散行列 $\tilde{Σ}$ は次のようになります。

$\tilde{Σ} = (1 - γ) Σ + γ D .$

γ ≥ MinGamma である場合、 $\tilde{Σ}$ は常に正則です。

μ_k を k クラスの X の要素の平均ベクトルとし、μ₀ をグローバル平均ベクトル (X の行の平均) とします。C がデータ X の相関行列、 $\tilde{C}$ が正則化された相関行列であるとします。

$\tilde{C} = (1 - γ) C + γ I,$

ここで、I が単位行列です。

データ点 x の正則化された判別分析分類器にある線形項は

${(x - μ_{0})}^{T} {\tilde{Σ}}^{- 1} (μ_{k} - μ_{0}) = [{(x - μ_{0})}^{T} D^{- 1 / 2}] [{\tilde{C}}^{- 1} D^{- 1 / 2} (μ_{k} - μ_{0})] .$

パラメーター δ は、大かっこ内の最後の項にしきい値としてこの式を入力します。ベクトル $[{\tilde{C}}^{- 1} D^{- 1 / 2} (μ_{k} - μ_{0})]$ の各成分は、大きさがしきい値 δ より小さい場合、ゼロが設定されます。そのため、クラス k に対して、コンポーネント j のしきい値を 0 に設定した場合、x のコンポーネント j は事後確率の評価には入りません。

DeltaPredictor プロパティは、このしきい値に関係するベクトルです。δ ≥ DeltaPredictor(i) の場合、すべてのクラス k には次の値があります。

$| {\tilde{C}}^{- 1} D^{- 1 / 2} (μ_{k} - μ_{0}) | \leq δ .$

したがって、δ ≥ DeltaPredictor(i) の場合、正則化された分類器は予測子 i を使用しません。

参照

[1] Guo, Y., T. Hastie, and R. Tibshirani. "Regularized linear discriminant analysis and its application in microarrays." Biostatistics, Vol. 8, No. 1, pp. 86–100, 2007.

拡張機能

すべて展開する

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。

使用上の注意および制限:

predict 関数はコード生成をサポートします。
fitcdiscr を使用して判別分析モデルに学習させるときや makecdiscr を使用してコンパクトな判別分析モデルを作成するときは、名前と値のペアの引数 'ScoreTransform' の値を無名関数にすることはできません。

詳細は、統計と機械学習の関数のコード生成の紹介を参照してください。

バージョン履歴

R2011b で導入

すべて展開する

R2023b: 予測子に欠損値がある観測値をモデルに格納

R2023b 以降では、予測子に欠損値がある学習観測値が X、Xcentered、Y、および W のデータプロパティに含まれます。RowsUsed プロパティは、学習に使用された観測値ではなく、モデルに格納されている学習観測値を示します。予測子に欠損値がある観測値は、モデルの学習プロセスでは引き続き省略されます。

以前のリリースでは、予測子に欠損値がある学習観測値はモデルのデータプロパティで省略されていました。

参考

CompactClassificationDiscriminant | fitcdiscr | compareHoldout

トピック

判別分析による分類

ClassificationDiscriminant

説明

作成

プロパティ

判別分析のプロパティ

BetweenSigma — クラス間共分散 読み取り専用: 正方行列

Coeffs — 係数行列 読み取り専用: k 行 k 列の構造体 | []

Delta — 線形判別モデルのデルタしきい値 非負のスカラー

DeltaPredictor — モデルに含める予測子に対応するデルタ係数の最小値 読み取り専用: 長さ p の行ベクトル

DiscrimType — 判別タイプ 文字ベクトル

Gamma — ガンマ正則化パラメーター 0 ～ 1 のスカラー

LogDetSigma — クラス内共分散行列の行列式の対数 読み取り専用: スカラー | ベクトル

MinGamma — 相関行列が可逆になるガンマ パラメーターの最小値 読み取り専用: 非負のスカラー

ModelParameters — モデルの学習に使用したパラメーター 読み取り専用: DiscriminantParams オブジェクト

予測子のプロパティ

CategoricalPredictors — カテゴリカル予測子のインデックス 読み取り専用: []

Mu — クラス平均 読み取り専用: 実数の K 行 p 列の行列

PredictorNames — 予測子変数の名前 読み取り専用: cell 配列

Sigma — クラス内共分散 読み取り専用: 数値配列

X — 予測子の値 読み取り専用: 実数行列

Xcentered — クラス平均を減算した X のデータ 読み取り専用: 実数行列

応答のプロパティ

ClassNames — 学習データ Y 内のクラスの名前 読み取り専用: categorical 配列 | 文字ベクトルの cell 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル

ResponseName — 応答変数 Y の名前 読み取り専用: 文字ベクトル

Y — 行の分類 読み取り専用: 分類変数

その他のデータのプロパティ

HyperparameterOptimizationResults — ハイパーパラメーターの交差検証最適化の説明 読み取り専用: BayesianOptimization オブジェクト | table

NumObservations — 学習データに含まれている観測値の数 読み取り専用: 正の整数

RowsUsed — 当てはめに使用される元の予測子データ X の行 読み取り専用: logical ベクトル

W — スケーリングされた観測値の重み 読み取り専用: 長さ n の数値ベクトル

他の分類のプロパティ

Cost — 点を分類するコスト 正方行列

Prior — 各クラスの事前確率 数値ベクトル

ScoreTransform — スコア変換関数 組み込み関数の名前 | 関数ハンドル | 'none'

オブジェクト関数

例

判別分析モデルの学習

詳細

判別分類

正則化

参照

拡張機能

C/C++ コード生成 MATLAB® Coder™ を使用して C および C++ コードを生成します。

バージョン履歴

R2023b: 予測子に欠損値がある観測値をモデルに格納

参考

トピック

`BetweenSigma` — クラス間共分散
読み取り専用: 正方行列

`Coeffs` — 係数行列
読み取り専用: `k` 行 `k` 列の構造体 | `[]`

`Delta` — 線形判別モデルのデルタしきい値
非負のスカラー

`DeltaPredictor` — モデルに含める予測子に対応するデルタ係数の最小値
読み取り専用: 長さ `p` の行ベクトル

`DiscrimType` — 判別タイプ
文字ベクトル

`Gamma` — ガンマ正則化パラメーター
`0` ～ `1` のスカラー

`LogDetSigma` — クラス内共分散行列の行列式の対数
読み取り専用: スカラー | ベクトル

`MinGamma` — 相関行列が可逆になるガンマパラメーターの最小値
読み取り専用: 非負のスカラー

`ModelParameters` — モデルの学習に使用したパラメーター
読み取り専用: `DiscriminantParams` オブジェクト

`CategoricalPredictors` — カテゴリカル予測子のインデックス
読み取り専用: `[]`

`Mu` — クラス平均
読み取り専用: 実数の `K` 行 `p` 列の行列

`PredictorNames` — 予測子変数の名前
読み取り専用: cell 配列

`Sigma` — クラス内共分散
読み取り専用: 数値配列

`X` — 予測子の値
読み取り専用: 実数行列

`Xcentered` — クラス平均を減算した `X` のデータ
読み取り専用: 実数行列

`ClassNames` — 学習データ `Y` 内のクラスの名前
読み取り専用: categorical 配列 | 文字ベクトルの cell 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル

`ResponseName` — 応答変数 `Y` の名前
読み取り専用: 文字ベクトル

`Y` — 行の分類
読み取り専用: 分類変数

`HyperparameterOptimizationResults` — ハイパーパラメーターの交差検証最適化の説明
読み取り専用: `BayesianOptimization` オブジェクト | table

`NumObservations` — 学習データに含まれている観測値の数
読み取り専用: 正の整数

`RowsUsed` — 当てはめに使用される元の予測子データ `X` の行
読み取り専用: logical ベクトル

`W` — スケーリングされた観測値の重み
読み取り専用: 長さ `n` の数値ベクトル

`Cost` — 点を分類するコスト
正方行列

`Prior` — 各クラスの事前確率
数値ベクトル

`ScoreTransform` — スコア変換関数
組み込み関数の名前 | 関数ハンドル | `'none'`

C/C++ コード生成
MATLAB® Coder™ を使用して C および C++ コードを生成します。