Text Analytics Toolbox

テキストのインポートと可視化

PDF、HTML、Microsoft® Word ファイルなど、単一のファイルや大量のファイルからテキストデータを MATLAB にインポートします。ワードクラウドとテキスト散布図を使用して、テキストデータセットを視覚的に探索します。

テキストのクリーニングと前処理

高水準のフィルター処理関数を適用して、URL、HTML タグ、句読点などの不要なコンテンツを削除します。スペルを修正し、ストップワードをフィルター処理し、単語を語根形に正規化します。

テキストの構造化形式への変換

トークン化アルゴリズムを使用して言語的特徴を抽出し、テキストデータを数値で表現するための単語頻度統計を計算し、word2vec や skip-gram などの単語埋め込みモデルの学習を行います。

テキスト解析への AI の適用

LSA、LDA、LSTM などの機械学習モデルやディープラーニング モデルをテキストデータに当てはめます。BERT、FinBERT、GPT-2 などのTransformer モデルを活用して、テキストデータで転移学習を実行します。

大規模言語モデル

MATLAB を OpenAI Chat Completions API に接続します。テキスト要約やチャットなどのタスクに対して、MATLAB 環境内で GPT モデルの自然言語処理機能を活用します。

エンジニア向けテキスト解析

センサーデータとテキストログデータに基づいて、予知保全スケジュールを作成します。要件の形式化とコンプライアンス チェックを自動化します。

文書解析

トピックモデリングを使用してテキストを解析し、基礎となるパターン、トレンド、および複雑な関係を検出して可視化します。文書を要約し、キーワードを抽出し、文書の重要度と類似度を評価します。

感情分析

テキストデータで表現された態度や意見を特定して、その文章の内容を肯定的、中立的、否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。

テキスト生成と分類

ディープラーニングを用いて、観察されたテキストに基づいて新しいテキストを生成し、カテゴリの識別が可能な単語埋め込みを使用してテキストの説明を分類します。