ionosphere データを読み込みます。このデータには 34 の予測子に対する 351 の二項反応が含まれます。

load ionosphere;
[N,D] = size(X)
N = 351
D = 34
resp = unique(Y)
交差検証を実行して、分類器における最近傍の数 k の適切な選択を見つけます。対数スケールでほぼ等間隔にある近傍の数を選択します。

rng(8000,'twister') % for reproducibility
K = round(logspace(0,log10(N),10)); % number of neighbors 
cvloss = zeros(numel(K),1);
for k=1:numel(K)
    knn = fitcknn(X,Y,...
    cvloss(k) = kfoldLoss(knn);
figure; % Plot the accuracy versus k
xlabel('Number of nearest neighbors');
ylabel('10 fold classification error');
title('KNN classification');

交差検証の誤差が最小なのは、k = 2 の場合です。


さまざまな次元数をもつ 2 最近傍分類のアンサンブルを作成し、結果アンサンブルの交差検証損失を調べます。


NPredToSample = round(linspace(1,D,10)); % linear spacing of dimensions
cvloss = zeros(numel(NPredToSample),1);
learner = templateKNN('NumNeighbors',2);
for npred=1:numel(NPredToSample)
   subspace = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ...
   cvloss(npred) = kfoldLoss(subspace);
   fprintf('Random Subspace %i done.\n',npred);
figure; % plot the accuracy versus dimension
xlabel('Number of predictors selected at random');
ylabel('10 fold classification error');
title('KNN classification with Random Subspace');

学習器ごとに 5 つの予測子があるアンサンブルと 8 つの予測子があるアンサンブルは、交差検証誤差が最も小さくなっています。これらのアンサンブルでは誤差率が約 0.06 ですが、他のアンサンブルでは交差検証誤差率が約 0.1 以上になっています。

適切なアンサンブル サイズの検出


ens = fitcensemble(X,Y,'Method','Subspace','Learners',learner, ...
figure; % Plot the accuracy versus number in ensemble
xlabel('Number of learners in ensemble');
ylabel('10 fold classification error');
title('KNN classification with Random Subspace');

学習器が 50 を超えるアンサンブルには利点がないと考えられます。25 の学習器が含まれる場合に適正な予測ができる可能性があります。


50 の学習器を使用して最終的なアンサンブルを作成します。アンサンブルをコンパクト化し、コンパクト化したバージョンでそれなりのメモリ量が節約されるかどうかを確認します。

ens = fitcensemble(X,Y,'Method','Subspace','NumLearningCycles',50,...
cens = compact(ens);
s1 = whos('ens');
s2 = whos('cens');
[s1.bytes s2.bytes] % si.bytes = size in bytes
ans = 1×2

     1757468     1527439

コンパクトなアンサンブルは完全なアンサンブルに比べて約 10% 小さくなります。どちらの集合でも同じ予測が得られます。


