韓国語サポート

このトピックでは、Text Analytics Toolbox™ の韓国語テキストサポート機能についてまとめています。

トークン化

関数 tokenizedDocument は、韓国語の入力を自動的に検出します。あるいは、tokenizedDocument の 'Language' オプションを 'ko' に設定します。このオプションは、トークンの言語の詳細を指定します。トークンの言語の詳細を表示するには、tokenDetails を使用します。これらの言語の詳細によって、関数 removeStopWords、addPartOfSpeechDetails、normalizeWords、addSentenceDetails、および addEntityDetails のトークンに対する動作が決まります。

トークン化のための追加の MeCab オプションを指定するには、mecabOptions オブジェクトを作成します。指定された MeCab トークン化オプションを使用してトークン化するには、tokenizedDocument の 'TokenizeMethod' オプションを使用します。

品詞の詳細

既定では、関数 tokenDetails はトークンの詳細とともに品詞の詳細を含めます。

固有表現認識

既定では、関数 tokenDetails はトークンの詳細とともにエンティティの詳細を含めます。

ストップワード

トークンの言語の詳細に従って文書からストップワードを削除するには、removeStopWords を使用します。韓国語のストップワードのリストを使用するには、stopWords の 'Language' オプションを 'ko' に設定します。

レンマ化

トークンの言語の詳細に従ってトークンをレンマ化するには、normalizeWords を使用し、'Style' オプションを 'lemma' に設定します。

言語に依存しない機能

単語と n-gram のカウント

関数 bagOfWords および関数 bagOfNgrams は、言語に関係なく、tokenizedDocument の入力をサポートします。データを含む tokenizedDocument 配列がある場合、これらの関数を使用できます。

モデル化と予測

関数 fitlda および関数 fitlsa は、言語に関係なく、bagOfWords および bagOfNgrams の入力をサポートします。データを含む bagOfWords オブジェクトまたは bagOfNgrams オブジェクトがある場合、これらの関数を使用できます。

関数 trainWordEmbedding は、言語に関係なく、tokenizedDocument またはファイルの入力をサポートします。tokenizedDocument 配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。

参考

トピック

言語に関する考慮事項