Main Content

言語に関する考慮事項

Text Analytics Toolbox™ は、英語、日本語、ドイツ語、および韓国語の言語をサポートしています。Text Analytics Toolbox のほとんどの関数は、他の言語のテキストでも動作します。この表は、他の言語で Text Analytics Toolbox の機能を使用する方法をまとめたものです。

機能言語に関する考慮事項回避策
トークン化

関数 tokenizedDocument には、英語、日本語、ドイツ語、および韓国語専用の組み込みルールがあります。英語とドイツ語のテキストの場合、tokenizedDocument'unicode' トークン化メソッドは、Unicode® Standard Annex #29[1]と ICU トークナイザー[2]に基づく規則を使用してトークンを検出し、ハッシュタグや URL などの複雑なトークンをより適切に検出できるように変更します。日本語と韓国語のテキストの場合、'mecab' トークン化メソッドは、MeCab トークナイザー[3]に基づく規則を使用してトークンを検出します。

他の言語については、tokenizedDocument を使用して試すことができます。tokenizedDocument で有用な結果が得られない場合は、テキストを手動でトークン化してみてください。手動でトークン化されたテキストから tokenizedDocument 配列を作成するには、'TokenizeMethod' オプションを 'none' に設定します。

詳細については、tokenizedDocument を参照してください。

ストップ ワードの削除

関数 stopWords および関数 removeStopWords は、英語、日本語、ドイツ語、および韓国語のストップ ワードのみをサポートします。

他の言語からストップ ワードを削除するには、removeWords を使用して、削除する独自のストップ ワードを指定します。

文の検出

関数 addSentenceDetails は、句読点文字と行番号情報に基づいて文の境界を検出します。英語とドイツ語のテキストの場合、関数は関数に渡された略語のリストも使用します。

他の言語では、文検出のために独自の略語リストを指定する必要がある場合があります。これを行うには、addSentenceDetails'Abbreviations' オプションを使用します。

詳細については、addSentenceDetails を参照してください。

ワード クラウド

string 入力の場合、関数 wordcloud および関数 wordCloudCounts は、英語、日本語、ドイツ語、および韓国語のトークン化、ストップ ワードの削除、および単語の正規化を使用します。

他の言語の場合、テキスト データを手動で前処理し、wordcloud で一意の単語と対応するサイズを指定する必要がある場合があります。

wordcloud でワード サイズを指定するには、一意の単語と対応するサイズを格納する table または配列としてデータを入力します。

詳細については、wordcloud を参照してください。

単語の埋め込み

関数 trainWordEmbedding に対するファイル入力には、空白で区切られた単語が必要です。

英語以外のテキストを含むファイルの場合、tokenizedDocument 配列を trainWordEmbedding に入力する必要がある場合があります。

事前にトークン化されたテキストから tokenizedDocument 配列を作成するには、関数 tokenizedDocument を使用し、'TokenizeMethod' オプションを 'none' に設定します。

詳細については、trainWordEmbedding を参照してください。

キーワードの抽出

関数 rakeKeywords は、英語、日本語、ドイツ語、および韓国語のテキストのみをサポートしています。

関数 rakeKeywords は、区切り文字ベースのアプローチを使用してキーワードを抽出し、候補キーワードを識別します。既定では、関数は句読点文字とストップ ワード (入力文書の言語の詳細で指定される言語の stopWords によって指定される) を区切り文字として使用します。

他の言語の場合は、Delimiters オプションと MergingDelimiters オプションを使用して、適切な区切り文字のセットを指定します。

詳細については、rakeKeywords を参照してください。

関数 textrankKeywords は、英語、日本語、ドイツ語、および韓国語のテキストのみをサポートしています。

関数 textrankKeywords は、品詞タグに基づいて候補キーワードを識別してキーワードを抽出します。関数は、英語、日本語、ドイツ語、および韓国語のテキストのみをサポートする関数 addPartOfSpeechDetails によって指定される品詞タグを使用します。

他の言語の場合は、代わりに rakeKeywords を使用し、'Delimiters' オプションと 'MergingDelimiters' オプションを使用して適切な区切り文字のセットを指定することを試してください。

詳細については、textrankKeywords を参照してください。

言語に依存しない機能

単語と n-gram のカウント

関数 bagOfWords および関数 bagOfNgrams は、言語に関係なく、tokenizedDocument の入力をサポートします。データを含む tokenizedDocument 配列がある場合、これらの関数を使用できます。

モデル化と予測

関数 fitlda および関数 fitlsa は、言語に関係なく、bagOfWords および bagOfNgrams の入力をサポートします。データを含む bagOfWords オブジェクトまたは bagOfNgrams オブジェクトがある場合、これらの関数を使用できます。

関数 trainWordEmbedding は、言語に関係なく、tokenizedDocument またはファイルの入力をサポートします。tokenizedDocument 配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。

参照

[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/

[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/

参考

| | | | | | | | | |

関連するトピック