最新のリリースでは、このページがまだ翻訳されていません。 このページの最新版は英語でご覧になれます。
スーパークラス: CompactClassificationNaiveBayes
単純ベイズ分類
ClassificationNaiveBayes
はマルチクラス学習のための単純ベイズ分類器です。fitcnb
および学習データを使用し、ClassificationNaiveBayes
分類器に学習させます。
学習させた ClassificationNaiveBayes
分類器は学習データ、パラメーター値、データ分布および事前確率を格納します。これらの分類器は以下に使用できます。
再代入予測の推定。詳細については、resubPredict
を参照してください。
新しいデータのラベルまたは事後確率の予測。詳細については、predict
を参照してください。
ClassificationNaiveBayes
オブジェクトの作成には fitcnb
を使用します。
compact | コンパクトな単純ベイズ分類器 |
crossval | 交差検証した単純ベイズ分類器 |
resubEdge | 再代入による単純ベイズ分類器の分類エッジ |
resubLoss | 再代入による単純ベイズ分類器の分類損失 |
resubMargin | 再代入による単純ベイズ分類器の分類マージン |
resubPredict | 単純ベイズ分類器の再代入ラベルを予測 |
値。値のクラスがコピー操作に与える影響については、オブジェクトのコピーを参照してください。
fitcnb
を使用して Mdl
を学習させる際に 'DistributionNames','mn'
を指定する場合、多項分布は bag-of-tokens モデルを使用して近似されます。トークン j
がプロパティ DistributionParameters{
のクラス k
,j
}k
に出現する確率が保存されます。加法平滑化 [2] を使用すると、推定確率は次のようになります。
ここで
はクラス k におけるトークン j の重み付き発生数です。
nk はクラス k 内の観測数です。
は観測値 i の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。
は、クラス k に含まれているすべてのトークンの重み付き発生数の合計です。
fitcnb
を使用して Mdl
を学習させる際に 'DistributionNames','mvmn'
を指定する場合、次のようになります。
予測子ごとに一意のレベルのリストが収集され、並べ替えられたリストは CategoricalLevels
に保存され、各レベルはビンと見なされます。予測子とクラスの各組み合わせは、個別の独立した多項確率変数です。
クラス k の予測子が j
の場合、CategoricalLevels{
に保存されたリストを使用して、カテゴリカル レベルごとのインスタンスがカウントされます。j
}
クラス k
の予測子 j
が、プロパティ DistributionParameters{
においてレベル L をもつ場合、すべてのレベルの確率は k
,j
}CategoricalLevels{
に保存されます。加法平滑化 [2] を使用すると、推定確率は次のようになります。j
}
ここで
は、クラス k 内の予測子 j が L に等しい観測値の重み付き個数です。
nk はクラス k 内の観測数です。
xij = L の場合は 、それ以外の場合は 0 です。
は観測値 i の重みです。クラス内の重みは、その合計がクラスの事前確率になるように正規化されます。
mj は予測子 j の異なるレベルの数です。
mk はクラス k 内の重み付けされた観測値の数です。
[1] Hastie, T., R. Tibshirani, and J. Friedman. The Elements of Statistical Learning, Second Edition. NY: Springer, 2008.
[2] Manning, C. D., P. Raghavan, and M. Schütze. Introduction to Information Retrieval, NY: Cambridge University Press, 2008.