fitsemiself
半教師あり自己学習法を使用したデータのラベル付け
構文
説明
fitsemiself は、ラベル付けされたデータ、ラベル、およびラベル付けされていないデータが与えられた、半教師あり自己学習モデルを作成します。返されるモデルには、ラベル付けされていないデータに当てはめられたラベル、および対応するスコアが含まれます。このモデルは、オブジェクト関数 predict を使用して未観測データのラベルを予測することもできます。ラベル付けアルゴリズムの詳細については、アルゴリズムを参照してください。
は Mdl = fitsemiself(Tbl,ResponseVarName,UnlabeledTbl)Tbl 内のラベル付けされたデータを使用します。ここで、Tbl.ResponseVarName はラベル付けされたデータのラベルを格納しており、UnlabeledTbl 内のラベル付けされていないデータに当てはめられたラベルを返します。この関数は、オブジェクト Mdl の FittedLabels プロパティおよび LabelScores プロパティに、当てはめられたラベルおよび対応するスコアをそれぞれ保存します。
は、Mdl = fitsemiself(Tbl,formula,UnlabeledTbl)formula を使用して、Tbl に含まれる変数で使用する応答変数 (ラベルのベクトル) と予測子変数を指定します。この関数は、これらの変数を使用して、UnlabeledTbl 内のデータにラベルを付けます。
は、Mdl = fitsemiself(Tbl,Y,UnlabeledTbl)Tbl 内の予測子データと Y 内のラベルを使用して、UnlabeledTbl 内のデータにラベルを付けます。
は、Mdl = fitsemiself(X,Y,UnlabeledX)X 内の予測子データと Y 内のラベルを使用して、UnlabeledX 内のデータにラベルを付けます。
では、前の構文におけるいずれかの入力引数の組み合わせに加えて、1 つ以上の名前と値のペアの引数を使用してオプションを指定します。たとえば、ラベル付けアルゴリズムで使用する学習器のタイプ、反復回数、およびスコアのしきい値を指定できます。Mdl = fitsemiself(___,Name,Value)
例
入力引数
名前と値の引数
出力引数
アルゴリズム
アルゴリズムでは、ラベル付けされたデータのみで最初に学習させたユーザー指定の分類器 (Learner) に学習させることによって始まります。その後、その分類器を使用して、ラベル付けされていないデータのラベルを予測します。次に、アルゴリズムは予測のスコアを提供し、スコアがしきい値 (ScoreThreshold) を超えている場合、その予測を分類器の次の学習サイクルの真のラベルとして扱います。ラベル予測が収束するか、反復制限 (IterationLimit) に到達するまで、このプロセスは繰り返されます。
参照
[1] Abney, Steven. “Understanding the Yarowsky Algorithm.” Computational Linguistics 30, no. 3 (September 2004): 365–95. https://doi.org/10.1162/0891201041850876.
[2] Yarowsky, David. “Unsupervised Word Sense Disambiguation Rivaling Supervised Methods.” Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, 189–96. Cambridge, Massachusetts: Association for Computational Linguistics, 1995. https://doi.org/10.3115/981658.981684.
バージョン履歴
R2020b で導入


