韓国語サポート
このトピックでは、Text Analytics Toolbox™ の韓国語テキスト サポート機能についてまとめています。
トークン化
関数 tokenizedDocument は、韓国語の入力を自動的に検出します。あるいは、tokenizedDocument の 'Language' オプションを 'ko' に設定します。このオプションは、トークンの言語の詳細を指定します。トークンの言語の詳細を表示するには、tokenDetails を使用します。これらの言語の詳細によって、関数 removeStopWords、addPartOfSpeechDetails、normalizeWords、addSentenceDetails、および addEntityDetails のトークンに対する動作が決まります。
トークン化のための追加の MeCab オプションを指定するには、mecabOptions オブジェクトを作成します。指定された MeCab トークン化オプションを使用してトークン化するには、tokenizedDocument の 'TokenizeMethod' オプションを使用します。
品詞の詳細
既定では、関数 tokenDetails はトークンの詳細とともに品詞の詳細を含めます。
固有表現認識
既定では、関数 tokenDetails はトークンの詳細とともにエンティティの詳細を含めます。
ストップ ワード
トークンの言語の詳細に従って文書からストップ ワードを削除するには、removeStopWords を使用します。韓国語のストップ ワードのリストを使用するには、stopWords の 'Language' オプションを 'ko' に設定します。
レンマ化
トークンの言語の詳細に従ってトークンをレンマ化するには、normalizeWords を使用し、'Style' オプションを 'lemma' に設定します。
言語に依存しない機能
単語と n-gram のカウント
関数 bagOfWords および関数 bagOfNgrams は、言語に関係なく、tokenizedDocument の入力をサポートします。データを含む tokenizedDocument 配列がある場合、これらの関数を使用できます。
モデル化と予測
関数 fitlda および関数 fitlsa は、言語に関係なく、bagOfWords および bagOfNgrams の入力をサポートします。データを含む bagOfWords オブジェクトまたは bagOfNgrams オブジェクトがある場合、これらの関数を使用できます。
関数 trainWordEmbedding は、言語に関係なく、tokenizedDocument またはファイルの入力をサポートします。tokenizedDocument 配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。
参考
tokenizedDocument | removeStopWords | stopWords | addPartOfSpeechDetails | tokenDetails | normalizeWords | addLanguageDetails | addEntityDetails