韓国語サポート
このトピックでは、Text Analytics Toolbox™ の韓国語テキスト サポート機能についてまとめています。
トークン化
関数 tokenizedDocument
は、韓国語の入力を自動的に検出します。あるいは、tokenizedDocument
の 'Language'
オプションを 'ko'
に設定します。このオプションは、トークンの言語の詳細を指定します。トークンの言語の詳細を表示するには、tokenDetails
を使用します。これらの言語の詳細によって、関数 removeStopWords
、addPartOfSpeechDetails
、normalizeWords
、addSentenceDetails
、および addEntityDetails
のトークンに対する動作が決まります。
トークン化のための追加の MeCab オプションを指定するには、mecabOptions
オブジェクトを作成します。指定された MeCab トークン化オプションを使用してトークン化するには、tokenizedDocument
の 'TokenizeMethod'
オプションを使用します。
品詞の詳細
既定では、関数 tokenDetails
はトークンの詳細とともに品詞の詳細を含めます。
固有表現認識
既定では、関数 tokenDetails
はトークンの詳細とともにエンティティの詳細を含めます。
ストップ ワード
トークンの言語の詳細に従って文書からストップ ワードを削除するには、removeStopWords
を使用します。韓国語のストップ ワードのリストを使用するには、stopWords
の 'Language'
オプションを 'ko'
に設定します。
レンマ化
トークンの言語の詳細に従ってトークンをレンマ化するには、normalizeWords
を使用し、'Style'
オプションを 'lemma'
に設定します。
言語に依存しない機能
単語と n-gram のカウント
関数 bagOfWords
および関数 bagOfNgrams
は、言語に関係なく、tokenizedDocument
の入力をサポートします。データを含む tokenizedDocument
配列がある場合、これらの関数を使用できます。
モデル化と予測
関数 fitlda
および関数 fitlsa
は、言語に関係なく、bagOfWords
および bagOfNgrams
の入力をサポートします。データを含む bagOfWords
オブジェクトまたは bagOfNgrams
オブジェクトがある場合、これらの関数を使用できます。
関数 trainWordEmbedding
は、言語に関係なく、tokenizedDocument
またはファイルの入力をサポートします。tokenizedDocument
配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。
参考
tokenizedDocument
| removeStopWords
| stopWords
| addPartOfSpeechDetails
| tokenDetails
| normalizeWords
| addLanguageDetails
| addEntityDetails