Text Analytics Toolbox

 

Text Analytics Toolbox

テキストデータの解析とモデル化

詳細を見る:

テキストデータのインポートと可視化

ソーシャルメディア、ニュースフィード、機器のログ、レポート、アンケートなどのソースからテキストデータを抽出します。

テキストデータの抽出

単一のファイルまたは大規模なファイルの集合 (PDF、HTML、Microsoft® Word®、Excel® ファイルなど) から MATLAB® にテキストデータをインポートします。

Microsoft Word 文書の集合からテキストを抽出。

テキストの可視化

ワードクラウドとテキスト散布図を使用して、テキストデータセットを視覚的に探索します。

フォントのサイズや色を使用して単語の相対頻度を示すワードクラウド。

言語サポート

Text Analytics Toolbox には、英語や日本語、ドイツ語、韓国語に対応した言語固有の前処理機能が備わっています。ほとんどの機能は、他の言語のテキストでも機能します。

日本語テキストのインポート、準備、解析。

テキストデータの前処理

有意な単語を生テキストから抽出します。

テキストデータのクリーニング

高水準のフィルター処理関数を適用して URL、HTML タグおよび句読点などの不要なコンテンツを削除し、スペルを修正します。

生テキスト (左) を簡略化し、最も有意な単語 (右) を処理し。

ストップワードのフィルター処理と単語の原形への正規化

解析で有意なテキストデータに優先順位をつけるために、一般的な単語や、出現頻度が非常に高い/低い単語、非常に長い/短い単語をフィルター処理により除外します。ボキャブラリを語幹化して原形にするか、レンマ化して辞書の形式にすることで削減し、文書の幅広い意味またはセンチメントに焦点を当てます。

“a” や “of” などのストップワードを文書から削除。

トークン、文、品詞の識別

トークン化アルゴリズムを使用して、生テキストを単語の集合に自動的に分割します。コンテキストに合わせて、文の境界や品詞の詳細、その他の関連情報を追加します。

トークン化された文書に品詞や文の詳細を追加。

テキストの数値形式への変換

機械学習およびディープラーニングで使用するために、テキストデータを数値形式に変換します。

単語 および N-gram カウント

テキストデータを数値的に表すために語句の頻度の統計情報を計算します。

モデル内で出現頻度が最も高い単語を識別して可視化。

単語の埋め込みとエンコード

word2vec の CBoW (Continuous Bag-Of-Words) や skip-gram モデルなどの単語埋め込みモデルの学習を行います。fastText や GloVe などの事前学習済みのモデルをインポートします。

単語埋め込みを使用して、テキスト散布図のクラスターを可視化。 

テキストデータを使用した機械学習

機械学習アルゴリズムを使用して、トピックのモデル化、感情分析、分類、次元削減、ドキュメント概要の抽出を行います。

トピックモデリング

潜在的ディリクレ配分法 (LDA) や潜在意味解析 (LSA) などの機械学習アルゴリズムを使用して、大規模なテキストデータセットの基本パターン、傾向、複雑な関連性を発見し、可視化します。

嵐のレポートデータ内のトピックを識別。

文書要約とキーワード抽出

1 つ以上の文書から要約や関連キーワードを自動抽出し、文書の類似性および重要性を評価します。

テキストから要約を抽出。

感情分析

テキストデータで表現された態度や意見を特定して、その文章の内容を肯定的、中立的、否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。

肯定的な感情および否定的な感情を予測する単語の識別。

テキストデータを使用したディープラーニング

ディープラーニング アルゴリズムを使用して、感情分析、分類、要約、テキスト生成を実行します。

転移モデル

BERT や GPT-2 などの転移モデルを活用し、感情分析、分類、要約などのタスクのためにテキストデータを用いて転移学習を実行します。

テキストデータを使用した転移学習用の転移モデル。

テキストデータ分類のためのディープ ニューラル ネットワークの学習。

テキストの生成

ディープラーニングを使用して、観測されたテキストに基づき新しいテキストを生成します。

ジェイン・オースティンの『高慢と偏見』とディープラーニングの LSTM ネットワークを使用したテキストの生成。