テキスト データの準備
テキスト データを MATLAB® にインポートして、解析のために前処理する
Text Analytics Toolbox™ には、装置のログ、ニュース フィード、アンケート、オペレーター レポート、ソーシャル メディアなどのソースから得た生テキストを処理するためのツールが含まれます。これらのツールを使用して、一般的なファイル形式からテキストを抽出し、生テキストを前処理し、個々の単語またはマルチワード フレーズ (n-gram) を抽出し、テキストを数値表現に変換し、統計モデルを構築します。開始方法を示す例については、解析用のテキスト データの準備を参照してください。
Text Analytics Toolbox は、英語、日本語、ドイツ語、および韓国語の言語をサポートしています。Text Analytics Toolbox のほとんどの関数は、他の言語のテキストでも動作します。詳細については、言語に関する考慮事項を参照してください。
ライブ エディター タスク
テキスト データの前処理 | Preprocess and clean up text data for analysis (R2023a 以降) |
関数
トピック
インポート
- ファイルからのテキスト データの抽出
この例では、テキスト、HTML、Microsoft® Word、PDF、CSV、および Microsoft Excel® ファイルからテキスト データを抽出し、解析のために MATLAB® にインポートする方法を示します。 - HTML の解析およびテキスト コンテンツの抽出
この例では、HTML コードを解析し、特定の要素からテキスト コンテンツを抽出する方法を示します。 - テキスト解析用のデータ セット
さまざまなテキスト解析タスク用のデータ セットを確認する。
前処理
- Preprocess Text Data in Live Editor
Explore text preprocessing techniques using the Preprocess Text Data Live Editor task. - 解析用のテキスト データの準備
この例では、解析のためにテキスト データをクリーニングおよび前処理する関数を作成する方法を示します。 - 絵文字を含むテキスト データの解析
この例では、絵文字を含むテキスト データを解析する方法を示します。 - 文書のスペルの修正
この例では、Hunspell を使用して文書のスペルを修正する方法を示します。 - Create Extension Dictionary for Spelling Correction
This example shows how to create a Hunspell extension dictionary for spelling correction. - Create Custom Spelling Correction Function Using Edit Distance Searchers
This example shows how to correct spelling using edit distance searchers and a vocabulary of known words. - 文法的依存関係の解析を使用した文構造の解析
この例では、文法的依存関係の解析を使用して文から情報を抽出する方法を示します。
言語サポート
- 言語に関する考慮事項
他の言語向けの、Text Analytics Toolbox の機能の使用に関する情報。 - 日本語言語サポート
Text Analytics Toolbox での日本語サポートに関する情報。 - 日本語のテキスト データの解析
この例では、トピック モデルを使用して、日本語のテキスト データをインポート、準備、および解析する方法を示します。 - German Language Support
Information on German support in Text Analytics Toolbox. - Analyze German Text Data
This example shows how to import, prepare, and analyze German text data using a topic model.