templateNaiveBayes
単純ベイズ分類器テンプレート
説明
は、1 つ以上の名前と値のペアの引数で指定された追加オプションを使用してテンプレートを返します。t = templateNaiveBayes(Name,Value)t ペア引数を使用して指定する場合を除き、Name,Value のすべてのプロパティは空です。
たとえば、予測子の分布を指定できます。
コマンド ウィンドウに t を表示する場合、すべてのオプションは、名前と値のペア引数を使用して指定する場合を除き、空 ([]) で表示されます。学習中、空のオプションに既定値が使用されます。
例
名前と値の引数
出力引数
詳細
アルゴリズム
予測子変数
jが条件付き正規分布をもつ場合 (名前と値の引数DistributionNamesを参照)、クラス固有の加重平均、および加重標準偏差の不偏推定を計算することにより、この分布がデータに当てはめられます。各クラス k に対して以下を実行します。予測子 j の加重平均は次のようになります。
ここで wi は観測値 i の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。
予測子 j の加重標準偏差の不偏推定器は次のようになります。
ここで z1|k はクラス k 内の重みの合計、z2|k はクラス k 内の重みの 2 乗の合計です。
すべての予測子変数が条件付き多項分布 (
'DistributionNames','mn'を指定) を構成する場合、bag-of-tokens モデルを使用して、この分布が当てはめられます。トークンjがプロパティDistributionParameters{のクラスk,j}kに出現する確率が保存されます。加法平滑化[2]を使用すると、推定確率は次のようになります。ここで
はクラス k におけるトークン j の重み付き発生数です。
nk はクラス k 内の観測数です。
は観測値 i の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。
は、クラス k に含まれているすべてのトークンの重み付き発生数の合計です。
予測子変数
jが条件付き多変量多項分布を持つ場合、次のようになります。一意のレベルのリストが収集され、並べ替えられたリストは
CategoricalLevelsに保存され、各レベルはビンと見なされます。予測子とクラスの各組み合わせは、個別の独立した多項確率変数です。各クラス
kに対して、CategoricalLevels{に保存されたリストを使用して、カテゴリカル レベルごとのインスタンスがカウントされます。j}クラス
kの予測子jが、プロパティDistributionParameters{においてレベル L をもつ場合、すべてのレベルの確率はk,j}CategoricalLevels{に保存されます。加法平滑化[2]を使用すると、推定確率は次のようになります。j}ここで
は、クラス k 内の予測子 j が L に等しい観測値の重み付き個数です。
nk はクラス k 内の観測数です。
xij = L の場合は 、それ以外の場合は 0 です。
は観測値 i の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。
mj は予測子 j の異なるレベルの数です。
mk はクラス k 内の重み付けされた観測値の数です。
参照
[1] Hastie, T., R. Tibshirani, and J. Friedman. The Elements of Statistical Learning, Second Edition. NY: Springer, 2008.