edge

ガウスカーネル分類モデルの分類エッジ

ページ内をすべて折りたたむ

構文

e = edge(Mdl,X,Y)

e = edge(Mdl,Tbl,ResponseVarName)

e = edge(Mdl,Tbl,Y)

e = edge(___,'Weights',weights)

説明

e = edge(Mdl,X,Y) は、X 内の予測子データと Y 内の対応するクラスラベルを使用して、バイナリガウスカーネル分類モデル Mdl の分類エッジを返します。

例

e = edge(Mdl,Tbl,ResponseVarName) は、テーブル Tbl に含まれている予測子データと Tbl.ResponseVarName に含まれているクラスラベルを使用して学習させたカーネル分類器 Mdl の分類エッジを返します。

e = edge(Mdl,Tbl,Y) は、table Tbl 内の予測子データとベクトル Y 内のクラスラベルを使用して、分類器 Mdl の分類エッジを返します。

e = edge(___,'Weights',weights) は、weights で指定された観測値の重みを使用して、重み付きの分類エッジを返します。前の構文におけるいずれかの入力引数の組み合わせの後に、重みを指定します。

メモ

予測子データ X または Tbl 内の予測子変数に欠損値がある場合、関数 edge で NaN が返されることがあります。詳細については、欠損値がある予測子データに対して edge で NaN が返されることがあるを参照してください。

例

すべて折りたたむ

テストセットのエッジの推定

ライブスクリプトを開く

ionosphere データセットを読み込みます。このデータセットには、レーダー反射についての 34 個の予測子と、不良 ('b') または良好 ('g') という 351 個の二項反応が含まれています。

load ionosphere

データセットを学習セットとテストセットに分割します。テストセット用に 15% のホールドアウト標本を指定します。

rng('default') % For reproducibility
Partition = cvpartition(Y,'Holdout',0.15);
trainingInds = training(Partition); % Indices for the training set
testInds = test(Partition); % Indices for the test set

学習セットを使用してバイナリカーネル分類モデルに学習をさせます。

Mdl = fitckernel(X(trainingInds,:),Y(trainingInds));

学習セットとテストセットのエッジを推定します。

eTrain = edge(Mdl,X(trainingInds,:),Y(trainingInds))

eTrain = 
2.1703

eTest = edge(Mdl,X(testInds,:),Y(testInds))

eTest = 
1.5643

テストセットのエッジを使用した特徴選択

ライブスクリプトを開く

複数のモデルによるテストセットのエッジを比較することにより、特徴選択を実行します。この条件のみに基づくと、エッジが最高となる分類器が最善の分類器となります。

load ionosphere

データセットを学習セットとテストセットに分割します。テストセット用に 15% のホールドアウト標本を指定します。

rng('default') % For reproducibility
Partition = cvpartition(Y,'Holdout',0.15);
trainingInds = training(Partition); % Indices for the training set
XTrain = X(trainingInds,:);
YTrain = Y(trainingInds);
testInds = test(Partition); % Indices for the test set
XTest = X(testInds,:);
YTest = Y(testInds);

予測子変数の半分を無作為に選択します。

p = size(X,2); % Number of predictors
idxPart = randsample(p,ceil(0.5*p));

2 つのバイナリカーネル分類モデルに学習をさせます。1 つではすべての予測子を、もう 1 つでは半分の予測子を使用します。

Mdl = fitckernel(XTrain,YTrain);
PMdl = fitckernel(XTrain(:,idxPart),YTrain);

Mdl および PMdl は ClassificationKernel モデルです。

各分類器についてテストセットのエッジを推定します。

fullEdge = edge(Mdl,XTest,YTest)

fullEdge = 
1.6335

partEdge = edge(PMdl,XTest(:,idxPart),YTest)

partEdge = 
2.0205

テストセットのエッジに基づくと、半分の予測子を使用する分類器の方がモデルとして優れています。

入力引数

すべて折りたたむ

`Mdl` — バイナリカーネル分類モデル
`ClassificationKernel` モデルオブジェクト

バイナリカーネル分類モデル。ClassificationKernel モデルオブジェクトを指定します。ClassificationKernel モデルオブジェクトは、fitckernel を使用して作成できます。

`X` — 予測子データ
n 行 p 列の数値行列

予測子データ。n 行 p 列の数値行列を指定します。n は観測値の個数、p は Mdl の学習に使用した予測子の個数です。

Y の長さと X の観測値数は同じでなければなりません。

データ型: single | double

`Y` — クラスラベル
categorical 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル | 文字ベクトルの cell 配列

クラスラベル。categorical 配列、文字配列、string 配列、logical ベクトル、数値ベクトル、または文字ベクトルの cell 配列を指定します。

Y のデータ型は Mdl.ClassNames のデータ型と同じでなければなりません。(string 配列は文字ベクトルの cell 配列として扱われます)。
Y の各クラスは Mdl.ClassNames のサブセットでなければなりません。
Y が文字配列の場合、各要素は配列の 1 つの行に対応しなければなりません。
Y の長さは X または Tbl の観測値の数と等しくなければなりません。

`Tbl` — 標本データ
table

モデルを学習させるために使用する標本データ。table として指定します。Tbl の各行は 1 つの観測値に、各列は 1 つの予測子変数に対応します。必要に応じて、応答変数用および観測値の重み用の追加列を Tbl に含めることができます。Tbl には、Mdl を学習させるために使用したすべての予測子が含まれていなければなりません。文字ベクトルの cell 配列ではない cell 配列と複数列の変数は使用できません。

Mdl を学習させるために使用した応答変数が Tbl に含まれている場合、ResponseVarName または Y を指定する必要はありません。

テーブルに格納されている標本データを使用して Mdl の学習を行った場合、edge の入力データもテーブルに格納されていなければなりません。

`ResponseVarName` — 応答変数名
`Tbl` 内の変数の名前

応答変数の名前。Tbl 内の変数の名前で指定します。Mdl を学習させるために使用した応答変数が Tbl に含まれている場合、ResponseVarName を指定する必要はありません。

ResponseVarName を指定する場合は、文字ベクトルまたは string スカラーとして指定しなければなりません。たとえば、応答変数が Tbl.Y として格納されている場合、ResponseVarName として 'Y' を指定します。それ以外の場合、Tbl の列は Tbl.Y を含めてすべて予測子として扱われます。

応答変数は、categorical 配列、文字配列、string 配列、logical ベクトル、数値ベクトル、または文字ベクトルの cell 配列でなければなりません。応答変数が文字配列の場合、各要素は配列の 1 つの行に対応しなければなりません。

データ型: char | string

`weights` — 観測値の重み
`ones(size(X,1),1)` (既定値) | 数値ベクトル | `Tbl` 内の変数の名前

観測値の重み。数値ベクトルまたは Tbl 内の変数の名前を指定します。

weights が数値ベクトルである場合、weights のサイズは X または Tbl の行数と等しくなければなりません。
weights が Tbl 内の変数名である場合、weights を文字ベクトルまたは string スカラーとして指定しなければなりません。たとえば、重みが Tbl.W として格納されている場合、weights として 'W' を指定します。それ以外の場合、Tbl の列は Tbl.W を含めてすべて予測子として扱われます。

重みを指定すると、edge は重み付きの分類エッジを計算します。X または Tbl の各行に含まれている観測値には、weights の対応する重みが適用されます。

edge は、合計がそれぞれのクラスの事前確率の値になるように weights を正規化します。

データ型: single | double | char | string

出力引数

すべて折りたたむ

`e` — 分類エッジ
数値スカラー

分類エッジ。数値スカラーとして返されます。

詳細

すべて折りたたむ

分類エッジ

"分類エッジ" は、分類マージンの加重平均です。

特徴選択を実行する場合などに複数の分類器から選択する方法の 1 つは、エッジが最大になる分類器を選択することです。

分類マージン

バイナリ分類の "分類マージン" は、各観測値における真のクラスの分類スコアと偽のクラスの分類スコアの差です。

このソフトウェアでは、バイナリ分類の分類マージンは次のように定義されます。

$m = 2 y f (x) .$

x は観測値です。x の真のラベルが陽性クラスである場合、y は 1、それ以外の場合は –1 です。f(x) は観測値 x についての陽性クラスの分類スコアです。一般的には、分類マージンは m = yf(x) と定義されています。

各マージンのスケールが同じである場合、マージンを分類の信頼尺度として使用できます。複数の分類器の中で、マージンが大きい分類器の方が優れています。

分類スコア

カーネル分類モデルの場合、観測値 x (行列ベクトル) を陽性クラスに分類する生の "分類スコア" は次のように定義されます。

$f (x) = T (x) β + b .$

$T (\cdot)$ は特徴量を拡張するための観測値の変換です。
β は推定された係数の列ベクトルです。
b は推定されたスカラーバイアスです。

x を陰性クラスに分類する生の分類スコアは −f(x) です。このソフトウェアでは、スコアが正になるクラスに観測値が分類されます。

カーネル分類モデルがロジスティック回帰学習器から構成されている場合、'logit' スコア変換が生の分類スコアに適用されます (ScoreTransform を参照)。

拡張機能

すべて展開する

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

edge 関数は、tall 配列を次の使用上の注意事項および制限事項付きでサポートします。

edge は tall table データをサポートしていません。

詳細は、tall 配列を参照してください。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

この関数は、GPU 配列を完全にサポートします。詳細は、GPU での MATLAB 関数の実行 (Parallel Computing Toolbox)を参照してください。

バージョン履歴

R2017b で導入

すべて展開する

R2025a: GPU 配列の指定 (Parallel Computing Toolbox が必要)

edge は GPU 配列を完全にサポートします。

R2022a: 既定以外のコスト行列をもつモデルに対して `edge` で異なる値が返される

入力モデルオブジェクトに学習させるときに既定以外のコスト行列を指定すると、関数 edge で以前のリリースとは異なる値が返されます。

関数 edge は、Prior プロパティに格納された事前確率を使用して入力データの観測値の重みを正規化します。Prior プロパティの値を関数で使用する方法については変更されていません。ただし、既定以外のコスト行列をもつモデルについて入力モデルオブジェクトに格納されるプロパティの値が変更されたため、関数から異なる値が返されることがあります。

プロパティの値の変更に関する詳細については、Cost プロパティにユーザー指定のコスト行列を格納を参照してください。

ソフトウェアでコスト行列、事前確率、および観測値の重みを以前のリリースと同じように扱う場合は、誤分類コスト行列に応じた事前確率と観測値の重みの調整の説明に従って、既定以外のコスト行列の事前確率と観測値の重みを調整します。その後、分類モデルに学習させるときに、調整後の事前確率と観測値の重みを名前と値の引数 Prior と Weights を使用して指定し、既定のコスト行列を使用します。

R2022a: 欠損値がある予測子データに対して `edge` で NaN が返されることがある

関数 edge で分類マージンの加重平均を計算する際に、スコアが NaN の観測値が省略されなくなりました。そのため、予測子データ X または Tbl 内の予測子変数に欠損値がある場合に edge で NaN が返されることがあります。ほとんどの場合、テストセットの観測値に予測子の欠損がなければ、関数 edge で NaN が返されることはありません。

この変更により、fitcauto を使用する場合の分類モデルの自動選択が改善されます。この変更の前は、NaN 以外の予測子が少ないモデルが選択される (新しいデータの分類に最適であると予測される) ことがありました。

コードの edge で NaN が返される場合、このような結果にならないようにコードを更新できます。rmmissing または fillmissing を使用して、欠損値を削除するか置き換えます。

次の表に、オブジェクト関数 edge で NaN が返される可能性がある分類モデルを示します。詳細については、それぞれの関数 edge の「互換性の考慮事項」を参照してください。

モデルタイプ	完全またはコンパクトなモデルオブジェクト	オブジェクト関数 `edge`
判別分析分類モデル	`ClassificationDiscriminant`, `CompactClassificationDiscriminant`	`edge`
分類用のアンサンブル学習器	`ClassificationEnsemble`, `CompactClassificationEnsemble`	`edge`
ガウスカーネル分類モデル	`ClassificationKernel`	`edge`
k 最近傍分類モデル	`ClassificationKNN`	`edge`
線形分類モデル	`ClassificationLinear`	`edge`
ニューラルネットワーク分類モデル	`ClassificationNeuralNetwork`, `CompactClassificationNeuralNetwork`	`edge`
サポートベクターマシン (SVM) 分類モデル	`ClassificationSVM`, `CompactClassificationSVM`	`edge`

参考

ClassificationKernel | fitckernel | margin | predict

edge

構文

説明

例

テストセットのエッジの推定

テストセットのエッジを使用した特徴選択

入力引数

Mdl — バイナリ カーネル分類モデル ClassificationKernel モデル オブジェクト

X — 予測子データ n 行 p 列の数値行列

Y — クラス ラベル categorical 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル | 文字ベクトルの cell 配列

Tbl — 標本データ table

ResponseVarName — 応答変数名 Tbl 内の変数の名前

weights — 観測値の重み ones(size(X,1),1) (既定値) | 数値ベクトル | Tbl 内の変数の名前

出力引数

e — 分類エッジ 数値スカラー

詳細

分類エッジ

分類マージン

分類スコア

拡張機能

tall 配列 メモリの許容量を超えるような多数の行を含む配列を計算します。

GPU 配列 Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

バージョン履歴

R2025a: GPU 配列の指定 (Parallel Computing Toolbox が必要)

R2022a: 既定以外のコスト行列をもつモデルに対して edge で異なる値が返される

R2022a: 欠損値がある予測子データに対して edge で NaN が返されることがある

参考

`Mdl` — バイナリカーネル分類モデル
`ClassificationKernel` モデルオブジェクト

`X` — 予測子データ
n 行 p 列の数値行列

`Y` — クラスラベル
categorical 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル | 文字ベクトルの cell 配列

`Tbl` — 標本データ
table

`ResponseVarName` — 応答変数名
`Tbl` 内の変数の名前

`weights` — 観測値の重み
`ones(size(X,1),1)` (既定値) | 数値ベクトル | `Tbl` 内の変数の名前

`e` — 分類エッジ
数値スカラー

tall 配列
メモリの許容量を超えるような多数の行を含む配列を計算します。

GPU 配列
Parallel Computing Toolbox™ を使用してグラフィックス処理装置 (GPU) 上で実行することにより、コードを高速化します。 (R2025a 以降)

R2022a: 既定以外のコスト行列をもつモデルに対して `edge` で異なる値が返される

R2022a: 欠損値がある予測子データに対して `edge` で NaN が返されることがある