Main Content

韓国語サポート

このトピックでは、Text Analytics Toolbox™ の韓国語テキスト サポート機能についてまとめています。

トークン化

関数 tokenizedDocument は、韓国語の入力を自動的に検出します。あるいは、tokenizedDocument'Language' オプションを 'ko' に設定します。このオプションは、トークンの言語の詳細を指定します。トークンの言語の詳細を表示するには、tokenDetails を使用します。これらの言語の詳細によって、関数 removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails、および addEntityDetails のトークンに対する動作が決まります。

トークン化のための追加の MeCab オプションを指定するには、mecabOptions オブジェクトを作成します。指定された MeCab トークン化オプションを使用してトークン化するには、tokenizedDocument'TokenizeMethod' オプションを使用します。

品詞の詳細

既定では、関数 tokenDetails はトークンの詳細とともに品詞の詳細を含めます。

固有表現認識

既定では、関数 tokenDetails はトークンの詳細とともにエンティティの詳細を含めます。

ストップ ワード

トークンの言語の詳細に従って文書からストップ ワードを削除するには、removeStopWords を使用します。韓国語のストップ ワードのリストを使用するには、stopWords'Language' オプションを 'ko' に設定します。

レンマ化

トークンの言語の詳細に従ってトークンをレンマ化するには、normalizeWords を使用し、'Style' オプションを 'lemma' に設定します。

言語に依存しない機能

単語と n-gram のカウント

関数 bagOfWords および関数 bagOfNgrams は、言語に関係なく、tokenizedDocument の入力をサポートします。データを含む tokenizedDocument 配列がある場合、これらの関数を使用できます。

モデル化と予測

関数 fitlda および関数 fitlsa は、言語に関係なく、bagOfWords および bagOfNgrams の入力をサポートします。データを含む bagOfWords オブジェクトまたは bagOfNgrams オブジェクトがある場合、これらの関数を使用できます。

関数 trainWordEmbedding は、言語に関係なく、tokenizedDocument またはファイルの入力をサポートします。tokenizedDocument 配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。

参考

| | | | | | |

関連するトピック