Text Analytics Toolbox は、テキストデータの前処理、解析、およびモデル化のためのアルゴリズムと可視化機能を提供します。ツールボックスで作成されたモデルは、感情分析、予知保全、トピックモデリングなどの用途に使用できます。
Text Analytics Toolbox には、機器のログ、ニュースフィード、アンケート、オペレーターレポート、ソーシャルメディアなどのソースからの生のテキストデータを処理するツールが含まれています。広く利用されているファイル形式からテキストを抽出し、生のテキストデータを前処理し、個々の単語を抽出し、テキストを数値表現に変換して、統計モデルを構築できます。
LSA、LDA、単語埋め込みなどの機械学習手法を使用して、高次元のテキストデータセットからクラスターを検出し、特徴量を作成できます。Text Analytics Toolbox で作成した特徴量を他のデータソースの特徴量と組み合わせることで、テキスト、数値、その他の種類のデータを活用した機械学習モデルを構築できます。
テキストのインポートと可視化
PDF、HTML、Microsoft® Word ファイルなど、単一のファイルや大量のファイルからテキストデータを MATLAB にインポートします。ワードクラウドとテキスト散布図を使用して、テキストデータセットを視覚的に探索します。
ドキュメンテーション | 例
テキストのクリーニングと前処理
高水準のフィルター処理関数を適用して、URL、HTML タグ、句読点などの不要なコンテンツを削除します。スペルを修正し、ストップワードをフィルター処理し、単語を語根形に正規化します。
ドキュメンテーション | 例
テキストの構造化形式への変換
トークン化アルゴリズムを使用して言語的特徴を抽出し、テキストデータを数値で表現するための単語頻度統計を計算し、word2vec や skip-gram などの単語埋め込みモデルの学習を行います。
ドキュメンテーション | 例
テキスト解析への AI の適用
LSA、LDA、LSTM などの機械学習モデルやディープラーニング モデルをテキストデータに当てはめます。BERT、FinBERT、GPT-2 などのTransformer モデルを活用して、テキストデータで転移学習を実行します。
ドキュメンテーション | 例
大規模言語モデル
MATLAB を OpenAI Chat Completions API に接続します。テキスト要約やチャットなどのタスクに対して、MATLAB 環境内で GPT モデルの自然言語処理機能を活用します。
ドキュメンテーション | 例
文書解析
トピックモデリングを使用してテキストを解析し、基礎となるパターン、トレンド、および複雑な関係を検出して可視化します。文書を要約し、キーワードを抽出し、文書の重要度と類似度を評価します。
ドキュメンテーション | 例
感情分析
テキストデータで表現された態度や意見を特定して、その文章の内容を肯定的、中立的、否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。
ドキュメンテーション | 例
テキスト生成と分類
ディープラーニングを用いて、観察されたテキストに基づいて新しいテキストを生成し、カテゴリの識別が可能な単語埋め込みを使用してテキストの説明を分類します。
ドキュメンテーション | 例
製品リソース:
あなたは学生ですか?
ご所属の学校にはすでに Campus-Wide License が導入されていて、MATLAB、Simulink、その他のアドオン製品を利用できる可能性があります。