Text Analytics Toolbox

テキストデータの解析とモデル化

 

Text Analytics Toolbox™ には、テキストデータの前処理や解析、モデル化を行うためのアルゴリズムと可視化手法が備わっています。このツールボックスで作成したモデルは、センチメント分析、予知保全、トピックモデリングなどの用途に使用できます。

Text Analytics Toolbox には、機器のログ、ニュースフィード、アンケート、オペレーターのレポート、ソーシャルメディアといったソースの生テキストを処理するためのツールが付属しています。一般的なファイル形式からテキストを抽出し、生テキストを前処理し、個々の単語を抽出して、テキストを数値表現に変換してから統計モデルを作成できます。

LSA や LDA、単語埋め込みなどの機械学習技術を使用して、高次元のテキストデータセットからクラスターを見つけ、特徴量を作成できます。Text Analytics Toolbox で作成した特徴量を他のデータソースの特徴量と組み合わせて、テキストや数値、その他のタイプのデータを使用する機械学習モデルを構築できます。

詳細を見る:

テキストデータのインポートと可視化

ソーシャルメディア、ニュースフィード、機器のログ、レポート、アンケートなどのソースからテキストデータを抽出します。

テキストデータの抽出

単一のファイルまたは大規模なファイルの集合 (PDF、HTML、Microsoft® Word®、Excel® ファイルなど) から MATLAB® にテキストデータをインポートします。

Microsoft Word 文書の集合からテキストを抽出。

テキストの可視化

ワードクラウドとテキスト散布図を使用して、テキストデータセットを視覚的に探索します。

フォントのサイズや色を使用して単語の相対頻度を示すワードクラウド。

言語サポート

Text Analytics Toolbox には、英語や日本語、ドイツ語、韓国語に対応した言語固有の前処理機能が備わっています。ほとんどの機能は、他の言語のテキストでも機能します。

日本語テキストのインポート、準備、解析。

テキストデータの前処理

有意な単語を生テキストから抽出します。

テキストデータのクリーニング

高水準のフィルター処理関数を適用して URL、HTML タグおよび句読点などの不要なコンテンツを削除し、スペルを修正します。

生テキスト (左) を簡略化し、最も有意な単語 (右) を処理し。

ストップワードのフィルター処理と単語の原形への正規化

解析で有意なテキストデータに優先順位をつけるために、一般的な単語や、出現頻度が非常に高い/低い単語、非常に長い/短い単語をフィルター処理により除外します。ボキャブラリを語幹化して原形にするか、レンマ化して辞書の形式にすることで削減し、文書の幅広い意味またはセンチメントに焦点を当てます。

“a” や “of” などのストップワードを文書から削除。

トークン、文、品詞の識別

トークン化アルゴリズムを使用して、生テキストを単語の集合に自動的に分割します。コンテキストに合わせて、文の境界や品詞の詳細、その他の関連情報を追加します。

トークン化された文書に品詞や文の詳細を追加。

テキストの数値形式への変換

機械学習およびディープラーニングで使用するために、テキストデータを数値形式に変換します。

単語 および N-gram カウント

テキストデータを数値的に表すために語句の頻度の統計情報を計算します。

モデル内で出現頻度が最も高い単語を識別して可視化。

単語の埋め込みとエンコード

word2vec の CBoW (Continuous Bag-Of-Words) や skip-gram モデルなどの単語埋め込みモデルの学習を行います。fastText や GloVe などの事前学習済みのモデルをインポートします。

単語埋め込みを使用して、テキスト散布図のクラスターを可視化。 

テキストデータを使用した機械学習

機械学習アルゴリズムを使用して、トピックモデリングや分類、次元削減、文書要約抽出を行います。

トピックモデリング

潜在的ディリクレ配分法 (LDA) や潜在意味解析 (LSA) などの機械学習アルゴリズムを使用して、大規模なテキストデータセットの基本パターン、傾向、複雑な関連性を発見し、可視化します。

嵐のレポートデータ内のトピックを識別。

文書要約とキーワード抽出

1 つ以上の文書から要約や関連キーワードを自動抽出し、文書の類似性および重要性を評価します。

テキストから要約を抽出。

テキストデータを使用したディープラーニング

長期短期記憶ネットワーク (LSTM) などのディープラーニング ネットワークを使用して、センチメント分析や分類を行います。

センチメント分析

テキストデータ内で表現されている態度や意見を識別し、文が肯定的であるか、中立であるか、否定的であるかを分類します。センチメントをリアルタイムに予測できるモデルを構築します。

肯定的および否定的なセンチメントを予測する単語の識別。 

テキストデータ分類のためのディープ ニューラル ネットワークの学習。

テキストの生成

ディープラーニングを使用して、観測されたテキストに基づき新しいテキストを生成します。

ジェイン・オースティンの『高慢と偏見』とディープラーニングの LSTM ネットワークを使用したテキストの生成。 

新機能

キーワード抽出

RAKE アルゴリズムおよび TextRank アルゴリズムを使用して、ドキュメントの記述に最適なキーワードを抽出

これらの機能や対応する関数の詳細については、リリースノートを参照してください。

ディープラーニングを使用したセンチメント分析

Twitter のライブデータのセンチメントを分析して、特定の単語がどのように認識されているかを理解します。

その他の Text Analytics Toolbox リソース