判別分析の場合、分類の "スコア" は分類の事後確率です。判別分析の事後確率の定義については、事後確率を参照してください。
アンサンブルの場合、分類スコアは分類の信頼度をクラスで表したものです。スコアが高いほど、信頼度も高くなります。
アンサンブル アルゴリズムが異なれば、スコアの定義も違ってきます。さらに、スコアの範囲はアンサンブル タイプによって異なります。以下に例を示します。
ツリーの場合、葉ノードの分類の "スコア" は、そのノードでの分類の事後確率です。あるノードにおける分類の事後確率とは、分類によって実際にそのノードに達するのに要した学習シーケンスの数を、そのノードまでの学習シーケンスの数で除算した値です。
たとえば、X
< 0.15
または X
> 0.95
である場合は予測子 X
を true
に分類し、それ以外の場合は X
を false に分類するとします。
100 個の点を無作為に生成し、分類します。
ツリーを枝刈りします。
枝刈りされたツリーは、0.15 未満の観測値を正しく true
に分類しています。また、.15 から .94 までの観測値についても、正しく false
に分類しています。しかし、0.94 より大きい観測は false
と誤って分類されます。そのため、0.15 より大きい観測値のスコアは、true
では .05/.85=.06、false
では .8/.85=.94 になります。
X
の先頭から 10 行までの予測スコアを計算します。
ans = 10×3
0.9059 0.0941 0.8147
0.9059 0.0941 0.9058
0 1.0000 0.1270
0.9059 0.0941 0.9134
0.9059 0.0941 0.6324
0 1.0000 0.0975
0.9059 0.0941 0.2785
0.9059 0.0941 0.5469
0.9059 0.0941 0.9575
0.9059 0.0941 0.9649
実際に、X
で 0.15 より小さいすべての値 (右端の列) には、0
と 1
のスコアが関連付けられ (左の列と中央の列)、X
のその他の値には、0.91
と 0.09
のスコアが関連付けられています。スコアの違い (想定した .06
ではなく、0.09
) は、統計変動によるものです。範囲 (.95,1)
の X
には、想定した 5
個ではなく 8
個の観測値があります。