Text Analytics Toolbox

 

Text Analytics Toolbox

テキストデータの解析とモデル化

 

Text Analytics Toolbox™ には、テキストデータの前処理、解析およびモデル化を行うアルゴリズムと可視化手法が備わっています。このツールボックスを使用して作成されたモデルは、センチメント分析、予知保全およびトピックのモデル化などのアプリケーションに使用できます。

Text Analytics Toolbox には、機器のログ、ニュースフィード、アンケート、オペレーターのレポートおよびソーシャルメディアなどのソースの生テキストを処理するツールが備わっています。一般的なファイル形式からテキストを抽出し、生テキストを前処理し、個々の単語を抽出して、テキストを数値表現に変換してから統計モデルを作成できます。

LSA、LDA および単語埋め込みなどの機械学習の手法を使用して、クラスターを検索して高次元のテキスト データセットの特徴量を作成できます。Text Analytics Toolbox を使用して作成された特徴量を別のデータソースの特徴量と組み合わせて、テキスト、数値およびその他のタイプのデータを使用する機械学習モデルを作成できます。

 

テキストデータのインポートと可視化

ソーシャルメディア、ニュースフィード、機器のログ、レポートおよびアンケートなどのソースからテキストデータを抽出します。

テキストデータの抽出

PDF、HTML、Microsoft® Word® および Excel® ファイルを含む単一のファイルまたは大規模なファイルの集合からテキストデータを MATLAB® にインポートします。

Microsoft Word 文書の集合らテキストを抽出

テキストの可視化

ワードクラウドおよびテキスト散布図を使用してテキスト データセットを視覚的に探索します。

フォントサイズおよび色を使用する単語の相対頻度を示すテキスト散布図

言語サポート

Text Analytics Toolbox には、英語と日本語の言語固有の前処理機能が備わっています。ほとんどの機能は、別の言語のテキストでも機能します。

日本語テキストデータのインポート、準備、解析

テキストデータの前処理

有意な単語を生テキストから抽出します。

テキストデータのクリーニング

高水準のフィルター処理関数を適用して URL、HTML タグおよび句読点などの不要なコンテンツを削除します。

生テキスト (左) を簡略化して最も有意な単語 (右) を処理

ストップワードのフィルター処理と単語の原形への正規化

一般的な単語、非常に頻繁に出現する単語、ほとんど出現しない単語、および非常に長いか非常に短い単語をフィルター処理により除外することで、有意なテキストデータに解析における優先順位を設定します。ボキャブラリを語幹化して原形にするか、レンマ化して辞書の形式にすることで削減して、文書の幅広い意味またはセンチメントに注目します。

"a" や "of" などのストップ ワードを文書から削除

トークン、文および品詞の特定

トークン化アルゴリズムを使用して生テキストを単語の集合に自動的に分割します。文の境界、品詞の詳細情報およびコンテキストのその他の関連情報を追加します。

金融チャートとテクニカル指標

テキストの数値形式への変換

機械学習およびディープラーニングで使用するために、テキストデータを数値形式に変換します。

単語および N-Gram カウント

テキストデータを数値的に表すために語句の頻度の統計情報を計算します。

モデル内で最も頻繁に出現する単語の特定と可視化

単語埋め込みおよび符号化

Word2vec Continuous Bag-of-Words (CBOW) および skip-gram モデルなどの単語埋め込みモデルを学習させます。fastText および GloVe を含む事前学習済みモデルをインポートします。

単語埋め込みを使用して、クラスタをテキスト散布図で可視化する 

テキストデータを使用した機械学習

潜在的ディリクレ配分法 (LDA) や潜在意味解析 (LSA) などの機械学習アルゴリズムを使用してトピックのモデル化、分類および次元削減を行います。

トピックのモデル化

大規模なテキスト データ セットの基になるパターン、傾向および複雑な関係を検出して可視化します。

嵐のレポートデータ内のトピック特定

テキストデータを使用したディープラーニング

センチメント分析および分類を長短期記憶ネットワーク (LSTM) などのディープラーニング ネットワークを使用して実行します。

センチメント分析

テキストデータ内で表現される態度や意見を特定し、文が肯定的であるか、中立であるか、否定的であるかを分類します。センチメントをリアルタイムで予測できるモデルを作成します。

肯定的および否定的なセンチメントを予測する単語の特定 

テキストデータを分類するためのディープ ニューラル ネットワークの学習

テキストの生成

ディープラーニングを使用して、観察されたテキストに基づいて新しいテキストを生成します。

ジェーン・オースティンの『高慢と偏見』およびディープラーニングの LSTM ネットワークを使用したテキストの生成 

新機能

ドイツ語のサポート

トークン化、ストップワード削除、語幹化、および品詞タグ付けを含むドイツ語テキストに対するテキスト解析の実行

編集距離

レーベンシュタイン距離など距離尺度を使って、文字列間や文書間の類似度を検出

名称付きエンティティの認知

地域、組織、人名などテキスト内の名称付きのエンティティを検知

トークン化および前処理

カスタムトークンのパターンを指定および検知して、トークン化された文書の言葉やフレーズを置換

ディープラーニングを用いた解析例

畳み込みネットワークを使用したテキスト分類について学ぶ (Deep Learning Toolbox が必須)

これらの機能および対応する関数の詳細については、リリースノートを参照してください。

ディープラーニングを使用したセンチメント分析

指定の用語がどのように認識されるかを理解するためにライブの Twitter データのセンチメントを分析します。

ご質問はこちらへ

Text Analytics Toolbox の技術エキスパート、Sohini Sarkar へのお問い合わせ

無料評価版を入手する

30 日間の無料評価版はこちら

今すぐダウンロード

あなたは学生ですか?

MATLAB および Simulink 学生向けソフトウェアの入手

詳細を見る