testckfold

h = testckfold(C1,C2,X1,X2,Y) は、完全な分類モデルまたは分類テンプレート C1 および C2をそれぞれテーブルデータまたは行列データ X1 および X2 内のすべての予測子変数に適用します。Y は、真のクラスラベルに対応するテーブル変数の名前、または真のクラスラベルの配列です。

h = testckfold(___,Name,Value) は、前の構文の入力引数のいずれかと、1 つ以上の Name,Value ペア引数で指定された追加オプションを使用します。たとえば、対立仮説のタイプ、検定のタイプ、並列計算の使用を指定できます。

[h,p,e1,e2] = testckfold(___) は、仮説検定の p 値 (p) と、各交差検証の実行および分割に対する分類損失 (e1 および e2) も返します。

分類木の予測子選択アルゴリズムの比較

fitctree の既定設定では、網羅的探索を使用して、各ノードで分割に最適な予測子が選択されます。また、曲率検定を実施すると、応答が独立していないと考えられる予測子を分割することもできます。この例では、網羅的探索による最適分割によって成長させた分類木と、交互作用がある曲率検定の実施により成長させた分類木とを統計的に比較します。

census1994 データセットを読み込みます。

load census1994.mat
rng(1) % For reproducibility

学習セットのテーブル adultdata を使用して、既定の分類木を成長させます。応答変数名は 'salary' です。

C1 = fitctree(adultdata,'salary')

C1 = 
  ClassificationTree
           PredictorNames: {'age'  'workClass'  'fnlwgt'  'education'  'education_num'  'marital_status'  'occupation'  'relationship'  'race'  'sex'  'capital_gain'  'capital_loss'  'hours_per_week'  'native_country'}
             ResponseName: 'salary'
    CategoricalPredictors: [2 4 6 7 8 9 10 14]
               ClassNames: [<=50K    >50K]
           ScoreTransform: 'none'
          NumObservations: 32561


  Properties, Methods

C1 は完全な ClassificationTree モデルです。このモデルの ResponseName プロパティは 'salary' です。C1 は、網羅的探索を使用し、最大の分割ゲインに基づいて分割に最適な予測子を求めます。

同じデータセットを使用して、別の分類木を成長させます。この分類木では、交互作用がある曲率検定を使用して分割に最適な予測子を求めるよう指定します。

C2 = fitctree(adultdata,'salary','PredictorSelection','interaction-curvature')

C2 = 
  ClassificationTree
           PredictorNames: {'age'  'workClass'  'fnlwgt'  'education'  'education_num'  'marital_status'  'occupation'  'relationship'  'race'  'sex'  'capital_gain'  'capital_loss'  'hours_per_week'  'native_country'}
             ResponseName: 'salary'
    CategoricalPredictors: [2 4 6 7 8 9 10 14]
               ClassNames: [<=50K    >50K]
           ScoreTransform: 'none'
          NumObservations: 32561


  Properties, Methods

C2 も、ResponseName が 'salary' に等しい完全な ClassificationTree モデルです。

5 x 2 のペア F 検定を実施して、学習セットを使用した場合の 2 つのモデルの精度を比較します。データセット内の応答変数名と ResponseName プロパティの応答変数名はすべて等しく、両方のセットの応答データが等しいので、応答データの指定を省略できます。

h = testckfold(C1,C2,adultdata,adultdata)

h = logical
   0

h = 0 なので、C1 と C2 は精度が等しいという帰無仮説を 5% の水準で棄却することはできません。

2 つの異なる分類モデルの精度を比較する

5 x 2 のペア F 検定を使用して、2 つのモデルの誤分類率を比較する統計検定を実行します。

フィッシャーのアヤメのデータセットを読み込みます。

load fisheriris;

既定のオプションを使用して、単純ベイズテンプレートと分類木テンプレートを作成します。

C1 = templateNaiveBayes;
C2 = templateTree;

C1 と C2 は、それぞれ単純ベイズアルゴリズムと分類木アルゴリズムに対応するテンプレートオブジェクトです。

2 つのモデルの予測精度が同じであるかどうかを検定します。各モデルに同じ予測子データを使用します。既定では testckfold は 5 x 2 の両側ペア F 検定を実行します。

rng(1); % For reproducibility
h = testckfold(C1,C2,meas,meas,species)

h = logical
   0

h = 0 なので、2 つのモデルの予測精度が等しいという帰無仮説は棄却できません。

単純なモデルと複雑なモデルの分類精度の比較

10 x 10 の反復交差 t 検定を使用して、単純なモデルの精度が複雑なモデルより高いかどうかを評価する統計検定を実行します。

フィッシャーのアヤメのデータセットを読み込みます。setosa 種のアヤメを誤分類する場合、virginica 種のアヤメを versicolor 種として誤分類するコストの 2 倍をペナルティとするように、コスト行列を作成します。

load fisheriris;
tabulate(species)

       Value    Count   Percent
      setosa       50     33.33%
  versicolor       50     33.33%
   virginica       50     33.33%

Cost = [0 2 2;2 0 1;2 1 0];
ClassNames  = {'setosa' 'versicolor' 'virginica'};...
    % Specifies the order of the rows and columns in Cost

各クラスの経験分布は一様で、分類コストはわずかに不均衡です。

2 つの ECOC テンプレートを作成します。一方のテンプレートでは線形 SVM バイナリ学習器を、もう一方のテンプレートでは RBF カーネルがある SVM バイナリ学習器を使用します。

tSVMLinear = templateSVM('Standardize',true); % Linear SVM by default
tSVMRBF = templateSVM('KernelFunction','RBF','Standardize',true);
C1 = templateECOC('Learners',tSVMLinear);
C2 = templateECOC('Learners',tSVMRBF);

C1 と C2 は ECOC テンプレートオブジェクトです。C1 は線形 SVM 用に、C2 は RBF カーネル学習がある SVM 用に準備されています。

分類コストに関して、単純なモデル (C1) の精度は複雑なモデル (C2) より高くないという帰無仮説を検定します。10 x 10 の反復交差検証を実行します。p 値と誤分類コストを返すように指定します。

rng(1); % For reproducibility
[h,p,e1,e2] = testckfold(C1,C2,meas,meas,species,...
    'Alternative','greater','Test','10x10t','Cost',Cost,...
    'ClassNames',ClassNames)

h = logical
   0

p = 
0.1077

e1 = 10×10

         0         0         0    0.0667         0    0.0667    0.1333         0    0.1333         0
    0.0667    0.0667         0         0         0         0    0.0667         0    0.0667    0.0667
         0         0         0         0         0    0.0667    0.0667    0.0667    0.0667    0.0667
    0.0667    0.0667         0    0.0667         0    0.0667         0         0    0.0667         0
    0.0667    0.0667    0.0667         0    0.0667    0.0667         0         0         0         0
         0         0    0.1333         0         0    0.0667         0         0    0.0667    0.0667
    0.0667    0.0667         0         0    0.0667         0         0    0.0667         0    0.0667
    0.0667         0    0.0667    0.0667         0    0.1333         0    0.0667         0         0
         0    0.0667    0.1333    0.0667    0.0667         0         0         0         0         0
         0    0.0667    0.0667    0.0667    0.0667         0         0    0.0667         0         0

e2 = 10×10

         0         0         0    0.1333         0    0.0667    0.1333         0    0.2667         0
    0.0667    0.0667         0    0.1333         0         0         0    0.1333    0.1333    0.0667
    0.1333    0.1333         0         0         0    0.0667         0    0.0667    0.0667    0.0667
         0    0.1333         0    0.0667    0.1333    0.1333         0         0    0.0667         0
    0.0667    0.0667    0.0667         0    0.0667    0.1333    0.1333         0         0    0.0667
    0.0667         0    0.0667    0.0667         0    0.0667    0.1333         0    0.0667    0.0667
    0.2000    0.0667         0         0    0.0667         0         0    0.1333         0    0.0667
    0.2000         0         0    0.1333         0    0.1333         0    0.0667         0         0
         0    0.0667    0.0667    0.0667    0.1333         0    0.2000         0         0         0
    0.0667    0.0667         0    0.0667    0.1333         0         0    0.0667    0.1333    0.0667

p 値は、0.10 よりわずかに大きくなっています。これは、単純なモデルの精度が複雑なモデルと同程度であるという帰無仮説を棄却できないことを意味します。この結果は、最大 0.10 の有意水準 (Alpha) では変化しません。

e1 と e2 は、誤分類コストが含まれている 10 行 10 列の行列です。行 r は、反復交差検証の r 回目の実行に対応します。列 k は、特定の交差検証の実行における検定セットの分割 k に対応します。たとえば、e2 の要素 (2,4) は 0.1333 です。この値は、交差検証の 2 回目の実行において、検定セットが分割 4 のときに、検定セットの推定誤分類コストが 0.1333 であることを意味します。

統計的な精度比較による特徴量の選択

この例では次を使用します。

予測子変数 (特徴量) のサブセットをより大きいセットから選択して、分類モデルの複雑さを減らします。そして、2 つのモデルの精度を統計的に比較します。

ionosphere データセットを読み込みます。

load ionosphere

AdaBoostM1 とすべての予測子セットを使用して、100 個のブースティング分類木があるアンサンブルを学習させます。各予測子について重要度を調べます。

t = templateTree('MaxNumSplits',1); % Weak-learner template tree object
C = fitcensemble(X,Y,'Method','AdaBoostM1','Learners',t);
predImp = predictorImportance(C);

bar(predImp)
h = gca;
h.XTick = 1:2:h.XLim(2);
title('Predictor Importances')
xlabel('Predictor')
ylabel('Importance measure')

重要度が上位 5 番目までの予測子を識別します。

[~,idxSort] = sort(predImp,'descend');
idx5 = idxSort(1:5);

2 つのモデルの予測精度が同じであるかどうかを検定します。縮小したデータセットを指定してから、完全な予測子データを指定します。計算を高速化するため、並列計算を使用します。

s = RandStream('mlfg6331_64');
Options = statset('UseParallel',true,'Streams',s,'UseSubstreams',true);

[h,p,e1,e2] = testckfold(C,C,X(:,idx5),X,Y,'Options',Options)

Starting parallel pool (parpool) using the 'local' profile ...
Connected to the parallel pool (number of workers: 6).

h = logical
   0

p = 0.4161

e1 = 5×2

    0.0686    0.0795
    0.0800    0.0625
    0.0914    0.0568
    0.0400    0.0739
    0.0914    0.0966

e2 = 5×2

    0.0914    0.0625
    0.1257    0.0682
    0.0971    0.0625
    0.0800    0.0909
    0.0914    0.1193

testckfold では学習済みの分類モデルをテンプレートとして扱うので、C の当てはめたパラメーターはすべて無視されます。つまり、testckfold は、指定されたオプションと予測子データのみを使用して分割外の分類損失を推定することにより C の交差検証を実行します。

h = 0 なので、2 つのモデルの予測精度が等しいという帰無仮説は棄却できません。この結果から、単純なアンサンブルの方が有利であることがわかります。

入力引数

`C1` — 分類モデルテンプレートまたは学習済みの分類モデル
分類モデルテンプレートオブジェクト | 学習済みの分類モデルオブジェクト

分類モデルテンプレートまたは学習済みの分類モデル。次の表で説明されている分類モデルテンプレートオブジェクトまたは学習済みの分類モデルオブジェクトのいずれかを指定します。

テンプレートタイプ	生成元
分類木	`templateTree`
判別分析	`templateDiscriminant`
アンサンブル (ブースティング、バギングおよびランダム部分空間)	`templateEnsemble`
誤り訂正出力符号 (ECOC) マルチクラス分類モデル	`templateECOC`
一般化加法モデル	`templateGAM`
サポートベクターマシン (SVM) 回帰またはロジスティック回帰の学習器によるガウスカーネル分類	`templateKernel`
kNN	`templateKNN`
SVM 回帰またはロジスティック回帰の学習器による線形分類	`templateLinear`
単純ベイズ	`templateNaiveBayes`
SVM	`templateSVM`

学習済みモデルのタイプ	モデルオブジェクト	生成元
分類木	`ClassificationTree`	`fitctree`
判別分析	`ClassificationDiscriminant`	`fitcdiscr`
バギングされた分類モデルのアンサンブル	`ClassificationBaggedEnsemble`	`fitcensemble`
分類モデルのアンサンブル	`ClassificationEnsemble`	`fitcensemble`
ECOC モデル	`ClassificationECOC`	`fitcecoc`
一般化加法モデル (GAM)	`ClassificationGAM`	`fitcgam`
kNN	`ClassificationKNN`	`fitcknn`
単純ベイズ	`ClassificationNaiveBayes`	`fitcnb`
ニューラルネットワーク	`ClassificationNeuralNetwork` (行に観測値が含まれる)	`fitcnet`
SVM	`ClassificationSVM`	`fitcsvm`

効率を向上させるには、学習済みの分類モデルオブジェクトではなく分類モデルテンプレートオブジェクトを指定します。

`C2` — 分類モデルテンプレートまたは学習済みのモデル
分類モデルテンプレートオブジェクト | 学習済みの分類モデルオブジェクト

テンプレートタイプ	生成元
分類木	`templateTree`
判別分析	`templateDiscriminant`
アンサンブル (ブースティング、バギングおよびランダム部分空間)	`templateEnsemble`
誤り訂正出力符号 (ECOC) マルチクラス分類モデル	`templateECOC`
一般化加法モデル	`templateGAM`
サポートベクターマシン (SVM) 回帰またはロジスティック回帰の学習器によるガウスカーネル分類	`templateKernel`
kNN	`templateKNN`
SVM 回帰またはロジスティック回帰の学習器による線形分類	`templateLinear`
単純ベイズ	`templateNaiveBayes`
SVM	`templateSVM`

学習済みモデルのタイプ	モデルオブジェクト	生成元
分類木	`ClassificationTree`	`fitctree`
判別分析	`ClassificationDiscriminant`	`fitcdiscr`
バギングされた分類モデルのアンサンブル	`ClassificationBaggedEnsemble`	`fitcensemble`
分類モデルのアンサンブル	`ClassificationEnsemble`	`fitcensemble`
ECOC モデル	`ClassificationECOC`	`fitcecoc`
一般化加法モデル (GAM)	`ClassificationGAM`	`fitcgam`
kNN	`ClassificationKNN`	`fitcknn`
単純ベイズ	`ClassificationNaiveBayes`	`fitcnb`
ニューラルネットワーク	`ClassificationNeuralNetwork` (行に観測値が含まれる)	`fitcnet`
SVM	`ClassificationSVM`	`fitcsvm`

効率を向上させるには、学習済みの分類モデルオブジェクトではなく分類モデルテンプレートオブジェクトを指定します。

`X1` — 1 番目の完全な分類モデルまたはテンプレートに適用するために使用するデータ
数値行列 | table

1 番目の完全な分類モデルまたはテンプレート C1 に適用するために使用するデータ。数値行列またはテーブルを指定します。

X1 の各行は 1 つの観測値に、各列は 1 つの変数に対応します。testckfold は、複数列の変数、および文字ベクトルの cell 配列以外の cell 配列をサポートしません。

X1 と X2 は同じデータ型でなければならず、X1、X2、Y には同じ個数の観測値が含まれていなければなりません。

Y に配列を指定した場合、testckfold は X1 のすべての列を独立した予測子変数として扱います。

データ型: double | single | table

`X2` — 2 番目の完全な分類モデルまたはテンプレートに適用するために使用するデータ
数値行列 | table

2 番目の完全な分類モデルまたはテンプレート C2 に適用するために使用するデータ。数値行列またはテーブルを指定します。

X2 の各行は 1 つの観測値に、各列は 1 つの変数に対応します。testckfold は、複数列の変数、および文字ベクトルの cell 配列以外の cell 配列をサポートしません。

X1 と X2 は同じデータ型でなければならず、X1、X2、Y には同じ個数の観測値が含まれていなければなりません。

Y に配列を指定した場合、testckfold は X2 のすべての列を独立した予測子変数として扱います。

データ型: double | single | table

`Y` — 真のクラスラベル
categorical 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル | 文字ベクトルの cell 配列 | 文字ベクトル | string スカラー

真のクラスラベル。categorical 配列、文字配列、string 配列、logical ベクトル、数値ベクトル、文字ベクトルの cell 配列、文字ベクトル、または string スカラーを指定します。

文字ベクトルまたは string スカラーの場合、X1 と X2 は table でなければならず、これらの応答変数は名前および値が同じでなければならず、Y は共通する変数名でなければなりません。たとえば、X1.Labels と X2.Labels が応答変数である場合、Y は 'Labels' であり、X1.Labels と X2.Labels は等価でなければなりません。
サポートされている他のすべてのデータ型の場合、Y は真のクラスラベルの配列です。
- Y が文字配列の場合、各要素は配列の 1 つの行に対応しなければなりません。
- X1、X2、Y は観測値の個数 (行数) が同じでなければなりません。
次の両方が成り立つ場合、Y の指定を省略できます。
- X1 および X2 が、(値および名前が) 同じ応答変数が含まれているテーブルである。
- C1 および C2 が完全な分類モデルであり、X1 および X2 内の応答変数名を指定する ResponseName プロパティが含まれている。
この場合、testckfold はテーブル内の共通する応答変数を使用します。たとえば、テーブル内の応答変数が X1.Labels および X2.Labels であり、C1.ResponseName および C2.ResponseName の値が 'Labels' である場合、Y を指定する必要はありません。

名前と値の引数

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、名前と値をそれぞれコンマを使って区切り、Name を引用符で囲みます。

例: 'Alternative','greater','Test','10x10t','Options',statsset('UseParallel',true) は、1 番目の予測クラスラベルに対する 1 番目のセットの精度が 2 番目のセットより高いかどうかを検定し、10 x 10 の t 検定を実行し、交差検証に並列計算を使用することを指定します。

`Alpha` — 仮説検定の有意水準
`0.05` (既定値) | (0, 1) の範囲にあるスカラー値

仮説検定の有意水準。'Alpha' と (0, 1) の範囲にあるスカラー値をコンマで区切って指定します。

例: 'Alpha',0.1

データ型: single | double

`Alternative` — 評価する対立仮説
`'unequal'` (既定値) | `'greater'` | `'less'`

評価する対立仮説。'Alternative' と次の表に記載されている値のいずれかをコンマ区切りのペアとして指定します。

値	対立仮説の説明	サポートされる検定
`'unequal'` (既定の設定)	`Y` を予測する場合、`X1` に `C1` を適用して生成された予測と `X2` に `C2` を適用して生成された予測では精度が異なる。	`'5x2F'`、`'5x2t'` および `'10x10t'`
`'greater'`	`Y` を予測する場合、`X1` に `C1` を適用して生成された予測は `X2` に `C2` を適用して生成された予測より精度が高い。	`'5x2t'` および `'10x10t'`
`'less'`	`Y` を予測する場合、`X1` に `C1` を適用して生成された予測は `X2` に `C2` を適用して生成された予測より精度が低い。	`'5x2t'` および `'10x10t'`

サポートされる検定についての詳細は、Test を参照してください。

例: 'Alternative','greater'

`X1CategoricalPredictors` — カテゴリカル予測子を特定するフラグ
`[]` (既定値) | logical ベクトル | 数値ベクトル | `'all'`

1 番目の検定セット予測子データ (X1) におけるカテゴリカル予測子を特定するフラグ。'X1CategoricalPredictors' と次のいずれかをコンマ区切りのペアとして指定します。

1 から p までのインデックスを使用する数値ベクトル。p は、X1 の列数を示します。
長さ p の logical ベクトル。true のエントリは、対応する X1 の列がカテゴリカル変数であることを示します。
'all'、すべての予測子がカテゴリカルであることを示します。

既定値は [] であり、データにカテゴリカル予測子が含まれていないことを示します。

kNN 分類モデルの場合、有効なオプションは [] および 'all' です。

X1 が行列でカテゴリカル予測子を含む場合は、X1CategoricalPredictors を指定する必要があります。C1 が学習済み分類モデルである場合、testckfold は C1 の CategoricalPredictors プロパティを使用しません。C1 がカテゴリカル予測子をもつ学習済みモデルである場合は、'X1CategoricalPredictors',C1.CategoricalPredictors を指定します。

例: 'X1CategoricalPredictors','all'

データ型: single | double | logical | char | string

`X2CategoricalPredictors` — カテゴリカル予測子を特定するフラグ
`[]` (既定値) | logical ベクトル | 数値ベクトル | `'all'`

2 番目の検定セット予測子データ (X2) におけるカテゴリカル予測子を特定するフラグ。'X2CategoricalPredictors' と次のいずれかをコンマ区切りのペアとして指定します。

1 から p までのインデックスを使用する数値ベクトル。p は、X2 の列数を示します。
長さ p の logical ベクトル。true のエントリは、対応する X2 の列がカテゴリカル変数であることを示します。
'all'、すべての予測子がカテゴリカルであることを示します。

既定値は [] であり、データにカテゴリカル予測子が含まれていないことを示します。

kNN 分類モデルの場合、有効なオプションは [] および 'all' です。

X2 が行列でカテゴリカル予測子を含む場合は、X2CategoricalPredictors を指定する必要があります。C2 が学習済み分類モデルである場合、testckfold は C2 の CategoricalPredictors プロパティを使用しません。C2 がカテゴリカル予測子をもつ学習済みモデルである場合は、'X2CategoricalPredictors',C2.CategoricalPredictors を指定します。

例: 'X2CategoricalPredictors','all'

データ型: single | double | logical | char | string

`ClassNames` — クラス名
categorical 配列 | 文字配列 | string 配列 | logical ベクトル | 数値ベクトル | 文字ベクトルの cell 配列

クラス名。'ClassNames' と categorical 配列、文字配列、string 配列、logical ベクトル、数値ベクトル、または文字ベクトルの cell 配列から構成されるコンマ区切りのペアとして指定します。ClassNames は Y のデータ型を使用して設定しなければなりません。

ClassNames が文字配列の場合、各要素は配列の 1 つの行に対応しなければなりません。

ClassNames の使用目的は次のとおりです。

クラスの順序に対応する入力引数の次元の順序を指定する。たとえば、Cost の次元の順序を指定するために ClassNames を使用します。
検定用にクラスのサブセットを選択する。たとえば、Y に含まれているすべての異なるクラス名の集合が {'a','b','c'} であるとします。クラス 'a' および 'c' のみの観測値を使用してモデルの学習と検定を行うには、'ClassNames',{'a','c'} を指定します。

既定の設定は、Y に含まれているすべての異なるクラス名の集合です。

例: 'ClassNames',{'b','g'}

`Cost` — 分類コスト
正方行列 | 構造体配列

分類コスト。'Cost' と正方行列または構造体配列をコンマで区切って指定します。

正方行列 Cost を指定する場合、Cost(i,j) は真のクラスが i の点をクラス j に分類するコストです。つまり、行は真のクラスに、列は予測するクラスに対応します。Cost の対応する行および列についてクラスの順序を指定するには、名前と値のペアの引数 ClassNames をさらに指定します。
構造体 S を指定する場合、S には次の 2 つのフィールドが必要です。
- S.ClassNames。Y と同じデータ型の変数としてクラス名を格納します。このフィールドを使用してクラスの順序を指定できます。
- S.ClassificationCosts。S.ClassNames と同じ行および列の順序でコスト行列を格納します。

コストを考慮する検定の場合は testcholdout を使用してください。

分類モデルを学習させるために使用したものと同じコスト行列を渡すことをお勧めします。

既定値は、i ~= j の場合は Cost(i,j) = 1、i = j の場合は Cost(i,j) = 0 です。

例: 'Cost',[0 1 2 ; 1 0 2; 2 2 0]

データ型: double | single | struct

`LossFun` — 損失関数
`'classiferror'` (既定値) | `'binodeviance'` | `'exponential'` | `'hinge'` | 関数ハンドル

損失関数。'LossFun' と 'classiferror'、'binodeviance'、'exponential'、'hinge' または関数ハンドルから構成されるコンマ区切りのペアとして指定します。

次の表は、使用可能な損失関数の一覧です。

値損失関数
'binodeviance' 二項分布からの逸脱度
'classiferror' 分類誤差
'exponential' 指数損失
'hinge' ヒンジ損失
関数ハンドル表記を使用して独自の関数を指定します。
標本サイズが n = size(X,1) で、K 個の一意なクラスがあるとします。使用する関数ではシグネチャが lossvalue = lossfun(C,S,W,Cost) になっていなければなりません。ここで
- 出力引数 lossvalue はスカラーです。
- lossfun は、独自の関数の名前です。
- C は n 行 K 列の logical 行列で、各行は対応する観測値がどのクラスに属するかを示します。列の順序は、名前と値のペアの引数 ClassNames におけるクラスの順序に対応します。
  C を作成するには、各行について観測値 p がクラス q に含まれている場合に C(p,q) = 1 を設定します。行 p の他のすべての要素を 0 に設定します。
- S は、分類スコアの n 行 K 列の行列です。列の順序は、名前と値のペアの引数 ClassNames におけるクラスの順序に対応します。S は、分類スコアの行列です。
- W は、観測値の重みの n 行 1 列の数値ベクトルです。W を渡す場合、重みは合計が 1 になるように正規化されます。
- Cost は、分類損失が含まれている K 行 K 列の数値行列です。たとえば、Cost = ones(K) - eye(K) は正しい分類のコストとして 0 を、誤分類のコストとして 1 を指定します。
'LossFun',@lossfun を使用して独自の関数を指定します。

値	損失関数
`'binodeviance'`	二項分布からの逸脱度
`'classiferror'`	分類誤差
`'exponential'`	指数損失
`'hinge'`	ヒンジ損失

`Options` — 並列計算と乱数ストリーム設定のオプション
構造体

並列計算と乱数ストリーム設定のオプション。構造体として指定します。statset を使用して Options 構造体を作成します。次の表は、オプションのフィールドとその値の一覧です。

フィールド名値既定の設定

UseParallel 並列計算を行う場合は、この値を true に設定します。 false

フィールド名	値	既定の設定
`UseParallel`	並列計算を行う場合は、この値を `true` に設定します。	`false`
`UseSubstreams`	再現可能な方法で計算する場合は、この値を `true` に設定します。再現性のある計算を行うには、`Streams` をサブストリームを許可する型 (`"mlfg6331_64"` または `"mrg32k3a"`) に設定します。	`false`
`Streams`	`RandStream` オブジェクトまたはそのようなオブジェクトの cell 配列としてこの値を指定します。`UseParallel` の値が `true` でなく、`UseSubstreams` の値も `false` でない場合、単一オブジェクトを使用します。この場合は、並列プールと同じサイズの cell 配列を使用します。	`Streams` を指定しなかった場合、`testckfold` は既定のストリームを使用します。

UseSubstreams

再現可能な方法で計算する場合は、この値を true に設定します。

再現性のある計算を行うには、Streams をサブストリームを許可する型 ("mlfg6331_64" または "mrg32k3a") に設定します。

false

Streams RandStream オブジェクトまたはそのようなオブジェクトの cell 配列としてこの値を指定します。UseParallel の値が true でなく、UseSubstreams の値も false でない場合、単一オブジェクトを使用します。この場合は、並列プールと同じサイズの cell 配列を使用します。 Streams を指定しなかった場合、testckfold は既定のストリームを使用します。

メモ

並列計算を行うには、Parallel Computing Toolbox が必要です。

例: Options=statset(UseParallel=true,UseSubstreams=true,Streams=RandStream("mlfg6331_64"))

データ型: struct

`Prior` — 事前確率
`'empirical'` (既定値) | `'uniform'` | 数値ベクトル | 構造体

各クラスの事前確率。'Prior' と 'empirical'、'uniform'、数値ベクトルまたは構造体から構成されるコンマ区切りのペアとして指定します。

次の表は、事前確率の設定に使用できるオプションの一覧です。

値	説明
`'empirical'`	クラスの事前確率は、`Y` のクラスの相対的頻度です。
`'uniform'`	クラスの事前確率はいずれも 1/K (K はクラス数) となります。
数値ベクトル	各要素はクラスの事前確率です。名前と値のペアの引数 `ClassNames` を使用して順序を指定します。要素は合計が `1` になるように正規化されます。
構造体	構造体 `S` には 2 つのフィールドがあります。 `S.ClassNames`: `Y` と同じ型の変数のクラス名が格納されます。 `S.ClassProbs`: 対応する事前確率のベクトルが格納されます。要素は合計が `1` になるように正規化されます。

例: 'Prior',struct('ClassNames',{{'setosa','versicolor'}},'ClassProbs',[1,2])

データ型: char | string | single | double | struct

`Test` — 実行する検定
`'5x2F'` (既定値) | `'5x2t'` | `'10x10t'`

実行する検定。'Test' と次のいずれかのコンマ区切りのペアとして指定します。'5x2F'、'5x2t'、'10x10t'

値	説明	サポートされる対立仮説
`'5x2F'` (既定の設定)	5 x 2 のペア F 検定。両側検定のみに適しています。	`'unequal'`
`'5x2t'`	5 x 2 のペア t 検定	`'unequal'`, `'less'`, `'greater'`
`'10x10t'`	10 x 10 の反復交差 t 検定	`'unequal'`, `'less'`, `'greater'`

実行可能な検定についての詳細は、反復交差検証を参照してください。サポートされる対立仮説についての詳細は、Alternative を参照してください。

例: 'Test','10x10t'

`Verbose` — 詳細レベル
`0` (既定値) | `1` | `2`

詳細レベル。'Verbose' と 0、1 または 2 をコンマ区切りのペアとして指定します。Verbose は、各交差検証分割の学習時にコマンドウィンドウに表示される診断情報の量を制御します。

次の表は、使用できる詳細レベルオプションの一覧です。

値	説明
`0`	診断情報は表示されません。
`1`	新しい交差検証を実行するたびに診断メッセージが表示されます。
`2`	新しい交差検証を実行するときと、特定の分割を学習させるときに診断メッセージが表示されます。

例: 'Verbose',1

データ型: double | single

`Weights` — 観測値の重み
`ones(size(X,1),1)` (既定値) | 数値ベクトル

観測値の重み。'Weights' と数値ベクトルで構成されるコンマ区切りのペアとして指定します。

Weights のサイズは X1 の行数と等しくなければなりません。X の各行の観測値では、Weights の対応する重みを使用して重み付けがされます。

合計が各クラスの事前確率の値と等しくなるように Weights が正規化されます。

データ型: double | single

メモ:

testckfold では、学習済みの分類モデルをテンプレートとして扱います。このため、モデル内の当てはめたパラメーターはすべて無視されます。つまり、testckfold では、モデルで指定されたオプションと予測子データのみを使用して交差検証を実行します。
反復交差検証は、帰無仮説において検定統計量が漸近的に正規分布になるという仮定に基づいています。非常に不均衡なコスト行列 (Cost = [0 100;1 0] など) や非常に離散的な応答分布 (つまり、ほとんどの観測値が少数のクラスに含まれている分布) の場合、漸近的な正規性の仮定に違反する可能性があります。コストを考慮する検定の場合は testcholdout を使用してください。
NaN、<undefined> 値、空の文字ベクトル ('')、空の string ("")、および <missing> 値は、欠損データ値を示します。
- X1 および X2 に含まれている欠損値の処理については、該当する分類モデル学習関数のリファレンスページ fitctree、fitcdiscr、fitcensemble、fitcecoc、fitcgam、fitcknn、fitcnb、fitcnet、または fitcsvm を参照してください。
- Y に欠損値が含まれていてはなりません。

出力引数

`h` — 仮説検定の結果
`1` | `0`

論理値として返される仮説検定の結果。

h = 1 の場合、有意水準 Alpha で帰無仮説が棄却されます。

h = 0 の場合、有意水準 Alpha では帰無仮説を棄却できません。

データ型: logical

`p` — p 値
[0,1] の範囲にあるスカラー値

検定の p 値。[0,1] の範囲にあるスカラー値として返されます。p は、帰無仮説が真であると仮定した場合に、観測された検定統計量よりも無作為な検定統計量の方が極端な値になる確率です。

testckfold では、検定のタイプによって異なる検定統計量の分布を使用して p を推定します。検定統計量についての詳細は、反復交差検証を参照してください。

`e1` — 分類損失
数値行列

分類損失。数値行列として返されます。e1 の行は交差検証の実行に、列は検定の分割に対応します。

testckfold では、1 番目のテストセット予測子データ (X1) を 1 番目の分類モデル (C1) に適用して、1 番目のクラスラベルのセットを推定します。

e1 には、交差検証の実行と分割について、1 番目のクラスラベルのセットで真のクラスラベル (Y) を予測する精度を要約した値が格納されます。e1 の要素の意味は、分類損失のタイプによって異なります。

`e2` — 分類損失
数値行列

分類損失。数値行列として返されます。e2 の行は交差検証の実行に、列は検定の分割に対応します。

testckfold では、2 番目のテストセット予測子データ (X2) を 2 番目の分類モデル (C2) に適用して、2 番目のクラスラベルのセットを推定します。

e2 には、交差検証の実行と分割について、2 番目のクラスラベルのセットで真のクラスラベル (Y) を予測する精度を要約した値が格納されます。e2 の要素の意味は、分類損失のタイプによって異なります。

詳細