言語に関する考慮事項
Text Analytics Toolbox™ は、英語、日本語、ドイツ語、および韓国語の言語をサポートしています。Text Analytics Toolbox のほとんどの関数は、他の言語のテキストでも動作します。この表は、他の言語で Text Analytics Toolbox の機能を使用する方法をまとめたものです。
| 機能 | 言語に関する考慮事項 | 回避策 |
|---|---|---|
| トークン化 | 関数 | 他の言語については、 詳細については、 |
| ストップ ワードの削除 | 関数 | 他の言語からストップ ワードを削除するには、 |
| 文の検出 | 関数 | 他の言語では、文検出のために独自の略語リストを指定する必要がある場合があります。これを行うには、 詳細については、 |
| ワード クラウド | string 入力の場合、関数 | 他の言語の場合、テキスト データを手動で前処理し、
詳細については、 |
| 単語の埋め込み | 関数 | 英語以外のテキストを含むファイルの場合、 事前にトークン化されたテキストから 詳細については、 |
| キーワードの抽出 | 関数 | 関数 他の言語の場合は、 詳細については、 |
| 関数 | 関数 他の言語の場合は、代わりに 詳細については、 |
言語に依存しない機能
単語と n-gram のカウント
関数 bagOfWords および関数 bagOfNgrams は、言語に関係なく、tokenizedDocument の入力をサポートします。データを含む tokenizedDocument 配列がある場合、これらの関数を使用できます。
モデル化と予測
関数 fitlda および関数 fitlsa は、言語に関係なく、bagOfWords および bagOfNgrams の入力をサポートします。データを含む bagOfWords オブジェクトまたは bagOfNgrams オブジェクトがある場合、これらの関数を使用できます。
関数 trainWordEmbedding は、言語に関係なく、tokenizedDocument またはファイルの入力をサポートします。tokenizedDocument 配列または正しい形式のデータを含むファイルがある場合、この関数を使用できます。
参照
[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/
[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/
[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/
参考
stopWords | removeWords | normalizeWords | bagOfWords | bagOfNgrams | tokenizedDocument | fitlda | fitlsa | wordcloud | addSentenceDetails | addLanguageDetails