Text Analytics Toolbox

Microsoft Word 文書からデータストアにテキストデータを抽出する MATLAB コード。

テキストのインポートと可視化

PDF、HTML、Microsoft® Word ファイルなど、単一のファイルや大量のファイルからテキストデータを MATLAB にインポートします。ワードクラウドとテキスト散布図を使用して、テキストデータセットを視覚的に探索します。

ワードクラウドとして結果が表示された [テキストデータの前処理] ライブ エディター タスクのスクリーンショット。

テキストのクリーニングと前処理

高水準のフィルター処理関数を適用して、URL、HTML タグ、句読点などの不要なコンテンツを削除します。スペルを修正し、ストップワードをフィルター処理し、単語を語根形に正規化します。

散布図を作成するための MATLAB コードと、作成された単語埋め込み t-SNE プロット。

テキストの構造化形式への変換

トークン化アルゴリズムを使用して言語的特徴を抽出し、テキストデータを数値で表現するための単語頻度統計を計算し、word2vec や skip-gram などの単語埋め込みモデルの学習を行います。

肯定的な態度と否定的な態度を識別するために、テキストデータに対して FFinBERT Transformer モデルを使用して転移学習を実行するためのワークフロー。

テキスト解析への AI の適用

LSA、LDA、LSTM などの機械学習モデルやディープラーニング モデルをテキストデータに当てはめます。BERT、FinBERT、GPT-2 などのTransformer モデルを活用して、テキストデータで転移学習を実行します。

大規模言語モデル

MATLAB を OpenAI Chat Completions API に接続します。テキスト要約やチャットなどのタスクに対して、MATLAB 環境内で GPT モデルの自然言語処理機能を活用します。

自然言語処理のためのテキスト データ クリーニングの図。左: 生データのワードクラウド。右: クリーニングされたデータのワードクラウド。

エンジニア向けテキスト解析

センサーデータとテキストログデータに基づいて、予知保全スケジュールを作成します。要件の形式化とコンプライアンス チェックを自動化します。

テキスト解析を使用して、複数の文書を 1 つの文書に要約します。

文書解析

トピックモデリングを使用してテキストを解析し、基礎となるパターン、トレンド、および複雑な関係を検出して可視化します。文書を要約し、キーワードを抽出し、文書の重要度と類似度を評価します。

肯定的な言葉と否定的な言葉に分離されたワードクラウド。

感情分析

テキストデータで表現された態度や意見を特定して、その文章の内容を肯定的、中立的、否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。

小説「高慢と偏見」から生成されたテキストのワードクラウド。

テキスト生成と分類

ディープラーニングを用いて、観察されたテキストに基づいて新しいテキストを生成し、カテゴリの識別が可能な単語埋め込みを使用してテキストの説明を分類します。