Text Analytics Toolbox™ には、テキストデータの前処理や解析、モデル化を行うためのアルゴリズムと可視化手法が備わっています。このツールボックスで作成したモデルは、センチメント分析、予知保全、トピックモデリングなどの用途に使用できます。
Text Analytics Toolbox には、機器のログ、ニュースフィード、アンケート、オペレーターのレポート、ソーシャルメディアといったソースの生テキストを処理するためのツールが付属しています。一般的なファイル形式からテキストを抽出し、生テキストを前処理し、個々の単語を抽出して、テキストを数値表現に変換してから統計モデルを作成できます。
LSA や LDA、単語埋め込みなどの機械学習技術を使用して、高次元のテキストデータセットからクラスターを見つけ、特徴量を作成できます。Text Analytics Toolbox で作成した特徴量を他のデータソースの特徴量と組み合わせて、テキストや数値、その他のタイプのデータを使用する機械学習モデルを構築できます。
詳細を見る:
テキストデータの抽出
単一のファイルまたは大規模なファイルの集合 (PDF、HTML、Microsoft® Word®、Excel® ファイルなど) から MATLAB® にテキストデータをインポートします。
言語サポート
Text Analytics Toolbox には、英語や日本語、ドイツ語、韓国語に対応した言語固有の前処理機能が備わっています。ほとんどの機能は、他の言語のテキストでも機能します。
テキストデータのクリーニング
高水準のフィルター処理関数を適用して URL、HTML タグおよび句読点などの不要なコンテンツを削除し、スペルを修正します。
ストップワードのフィルター処理と単語の原形への正規化
解析で有意なテキストデータに優先順位をつけるために、一般的な単語や、出現頻度が非常に高い/低い単語、非常に長い/短い単語をフィルター処理により除外します。ボキャブラリを語幹化して原形にするか、レンマ化して辞書の形式にすることで削減し、文書の幅広い意味またはセンチメントに焦点を当てます。
言語的特徴の抽出
トークン化アルゴリズムを使用して、生テキストを単語の集合に自動的に分割します。コンテキストに合わせて、文の境界や品詞の詳細、その他の関連情報を追加します。
単語 および N-gram カウント
テキストデータを数値的に表すために語句の頻度の統計情報を計算します。
単語の埋め込みとエンコード
word2vec の CBoW (Continuous Bag-Of-Words) や skip-gram モデルなどの単語埋め込みモデルの学習を行います。fastText や GloVe などの事前学習済みのモデルをインポートします。
トピックモデリング
潜在的ディリクレ配分法 (LDA) や潜在意味解析 (LSA) などの機械学習アルゴリズムを使用して、大規模なテキストデータセットの基本パターン、傾向、複雑な関連性を発見し、可視化します。
文書要約とキーワード抽出
1 つ以上の文書から要約や関連キーワードを自動抽出し、文書の類似性および重要性を評価します。
感情分析
テキストデータで表現された態度や意見を特定して、その文章の内容を肯定的、中立的、否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。
転移モデル
BERT, FinBERT, や GPT-2 などの転移モデルを活用し、感情分析、分類、要約などのタスクのためにテキストデータを用いて転移学習を実行します。
テキストの分類
ディープラーニングにより、テキストのカテゴリを識別できる単語埋め込みを使用してテキスト記述を分類します。
テキストの生成
ディープラーニングを使用して、観測されたテキストに基づき新しいテキストを生成します。