深層学習を使用したテキストデータの分類

この例では次を使用します。

この例では、深層学習長短期記憶 (LSTM) ネットワークを使用してテキストデータを分類する方法を説明します。

テキストデータでは必然的にデータが順に並んでいます。1 つのテキストは単語のシーケンスであり、それらの単語間には依存関係がある可能性があります。長期的な依存関係を学習して、シーケンスデータの分類に使用するために、LSTM ニューラルネットワークを使用します。LSTM ネットワークは、再帰型ニューラルネットワーク (RNN) の一種で、シーケンスデータのタイムステップ間の長期的な依存関係を学習できます。

テキストを LSTM ネットワークに入力するには、まず、テキストデータを数値シーケンスに変換します。ドキュメントを数値インデックスのシーケンスにマッピングする単語符号化を使用して、これを実現できます。また、より正確な結果を得るため、単語埋め込み層をネットワークに含めます。単語埋め込みは、ボキャブラリ内の単語をスカラーインデックスではなく数値ベクトルにマッピングします。これらの埋め込みでは、意味の似ている単語が類似のベクトルを持つように、単語のセマンティックな詳細を取得します。また、ベクトル演算を介して単語間の関係をモデル化します。たとえば、"Rome is to Italy as Paris is to France" という関係は、方程式 Italy - Rome + Paris = France で記述されます。

この例では、4 つのステップで LSTM ネットワークに学習させてそれを使用します。

データをインポートして前処理します。
単語符号化を使用して単語を数値シーケンスに変換します。
単語埋め込み層のある LSTM ネットワークを作成し、このネットワークに学習させます。
学習済み LSTM ネットワークを使用して新しいテキストデータを分類します。

データのインポート

工場レポートのデータをインポートします。このデータには、出荷時のイベントを説明するラベル付きテキストが含まれています。テキストデータを string としてインポートするために、テキストタイプを 'string' に指定します。

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');
head(data)

ans=8×5 table
                                 Description                                       Category          Urgency          Resolution         Cost 
    _____________________________________________________________________    ____________________    ________    ____________________    _____

    "Items are occasionally getting stuck in the scanner spools."            "Mechanical Failure"    "Medium"    "Readjust Machine"         45
    "Loud rattling and banging sounds are coming from assembler pistons."    "Mechanical Failure"    "Medium"    "Readjust Machine"         35
    "There are cuts to the power when starting the plant."                   "Electronic Failure"    "High"      "Full Replacement"      16200
    "Fried capacitors in the assembler."                                     "Electronic Failure"    "High"      "Replace Components"      352
    "Mixer tripped the fuses."                                               "Electronic Failure"    "Low"       "Add to Watch List"        55
    "Burst pipe in the constructing agent is spraying coolant."              "Leak"                  "High"      "Replace Components"      371
    "A fuse is blown in the mixer."                                          "Electronic Failure"    "Low"       "Replace Components"      441
    "Things continue to tumble off of the belt."                             "Mechanical Failure"    "Low"       "Readjust Machine"         38

この例の目的は、Category 列のラベルによって事象を分類することです。データをクラスに分割するために、これらのラベルを categorical に変換します。

data.Category = categorical(data.Category);

ヒストグラムを使用してデータのクラスの分布を表示します。

figure
histogram(data.Category);
xlabel("Class")
ylabel("Frequency")
title("Class Distribution")

次の手順は、これを学習セットと検証セットに分割することです。データを学習区画と、検証およびテスト用のホールドアウト区画に分割します。ホールドアウトの割合を 20% に指定します。

cvp = cvpartition(data.Category,'Holdout',0.2);
dataTrain = data(training(cvp),:);
dataValidation = data(test(cvp),:);

分割した table からテキストデータとラベルを抽出します。

textDataTrain = dataTrain.Description;
textDataValidation = dataValidation.Description;
YTrain = dataTrain.Category;
YValidation = dataValidation.Category;

データが正しくインポートされたことを確認するために、ワードクラウドを使用して学習テキストデータを可視化します。

figure
wordcloud(textDataTrain);
title("Training Data")

テキストデータの前処理

テキストデータをトークン化および前処理する関数を作成します。例の最後にリストされている関数 preprocessText は以下のステップを実行します。

tokenizedDocument を使用してテキストをトークン化する。
lower を使用してテキストを小文字に変換する。
erasePunctuation を使用して句読点を消去する。

関数 preprocessText を使用して学習データと検証データを前処理する。

documentsTrain = preprocessText(textDataTrain);
documentsValidation = preprocessText(textDataValidation);

前処理した学習ドキュメントを最初の数個表示します。

documentsTrain(1:5)

ans = 
  5×1 tokenizedDocument:

     9 tokens: items are occasionally getting stuck in the scanner spools
    10 tokens: loud rattling and banging sounds are coming from assembler pistons
    10 tokens: there are cuts to the power when starting the plant
     5 tokens: fried capacitors in the assembler
     4 tokens: mixer tripped the fuses

ドキュメントのシーケンスへの変換

ドキュメントを LSTM ネットワークに入力するために、単語符号化を使用してドキュメントを数値インデックスのシーケンスに変換します。

単語符号化を作成するには、関数 wordEncoding を使用します。

enc = wordEncoding(documentsTrain);

次の変換ステップは、すべてのドキュメントが同じ長さになるようにパディングと切り捨てを行うことです。関数 trainingOptions には、入力シーケンスのパディングと切り捨てを自動的に行うオプションが用意されています。ただし、これらのオプションは、単語ベクトルのシーケンスにはあまり適していません。代わりに、シーケンスのパディングと切り捨てを手動で行います。単語ベクトルのシーケンスの "左パディング" と切り捨てを行うと、学習が改善される可能性があります。

ドキュメントのパディングと切り捨てを行うには、まず、ターゲット長さを選択し、それより長いドキュメントを切り捨て、それにより短いドキュメントの左パディングを行います。最良の結果を得るには、大量のデータを破棄せずにターゲット長さを短くする必要があります。適切なターゲット長さを求めるために、学習ドキュメントの長さのヒストグラムを表示します。

documentLengths = doclength(documentsTrain);
figure
histogram(documentLengths)
title("Document Lengths")
xlabel("Length")
ylabel("Number of Documents")

学習ドキュメントのほとんどは 10 トークン未満です。これを切り捨てとパディングのターゲット長さとして使用します。

doc2sequence を使用してドキュメントを数値インデックスのシーケンスに変換します。シーケンスの長さが 10 になるように切り捨てと左パディングを行うために、'Length' オプションを 10 に設定します。

sequenceLength = 10;
XTrain = doc2sequence(enc,documentsTrain,'Length',sequenceLength);
XTrain(1:5)

ans=5×1 cell array
    {1×10 double}
    {1×10 double}
    {1×10 double}
    {1×10 double}
    {1×10 double}

同じオプションを使用して検証ドキュメントをシーケンスに変換します。

XValidation = doc2sequence(enc,documentsValidation,'Length',sequenceLength);

LSTM ネットワークの作成と学習

LSTM ネットワークアーキテクチャを定義します。シーケンスデータをネットワークに入力するために、シーケンス入力層を含め、入力サイズを 1 に設定します。次に、次元が 50 の単語埋め込み層と、単語符号化と同じ数の単語を含めます。次に、LSTM 層を含め、隠れユニット数を 80 に設定します。sequence-to-label 分類問題に LSTM 層を使用するには、出力モードを 'last' に設定します。最後に、クラスの数と同じサイズの全結合層や、ソフトマックス層と分類層を追加します。

inputSize = 1;
embeddingDimension = 50;
numHiddenUnits = 80;

numWords = enc.NumWords;
numClasses = numel(categories(YTrain));

layers = [ ...
    sequenceInputLayer(inputSize)
    wordEmbeddingLayer(embeddingDimension,numWords)
    lstmLayer(numHiddenUnits,'OutputMode','last')
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer]

layers = 
  6x1 Layer array with layers:

     1   ''   Sequence Input          Sequence input with 1 dimensions
     2   ''   Word Embedding Layer    Word embedding layer with 50 dimensions and 423 unique words
     3   ''   LSTM                    LSTM with 80 hidden units
     4   ''   Fully Connected         4 fully connected layer
     5   ''   Softmax                 softmax
     6   ''   Classification Output   crossentropyex

学習オプションの指定

学習オプションを指定します。

Adam ソルバーを使用して学習させます。
ミニバッチサイズとして 16 を指定します。
すべてのエポックでデータをシャッフルします。
'Plots' オプションを 'training-progress' に設定して、学習の進行状況を監視します。
検証データを指定するには、'ValidationData' オプションを使用します。
'Verbose' オプションを false に設定して、詳細出力を非表示にします。

既定では、使用可能な GPU がある場合、trainNetwork は GPU を使用します。そうでない場合は CPU が使用されます。実行環境を手動で指定するには、trainingOptions の名前と値のペアの引数 'ExecutionEnvironment' を使用します。CPU での学習にかかる時間は、GPU での学習よりも大幅に長くなる可能性があります。GPU を使用して学習させるには Parallel Computing Toolbox™ が必要です。サポートされているデバイスについては、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。

options = trainingOptions('adam', ...
    'MiniBatchSize',16, ...
    'GradientThreshold',2, ...
    'Shuffle','every-epoch', ...
    'ValidationData',{XValidation,YValidation}, ...
    'Plots','training-progress', ...
    'Verbose',false);

関数 trainNetwork を使用して LSTM ネットワークに学習させます。

net = trainNetwork(XTrain,YTrain,layers,options);

新しいデータを使用した予測

3 つの新しいレポートの事象タイプを分類します。新しいレポートを含む string 配列を作成します。

reportsNew = [ ...
    "Coolant is pooling underneath sorter."
    "Sorter blows fuses at start up."
    "There are some very loud rattling sounds coming from the assembler."];

学習ドキュメントと同じ前処理手順を使用してテキストデータを前処理します。

documentsNew = preprocessText(reportsNew);

学習シーケンスの作成時と同じオプションで doc2sequence を使用して、テキストデータをシーケンスに変換します。

XNew = doc2sequence(enc,documentsNew,'Length',sequenceLength);

学習済みの LSTM ネットワークを使用して新しいシーケンスを分類します。

labelsNew = classify(net,XNew)

labelsNew = 3×1 categorical
     Leak 
     Electronic Failure 
     Mechanical Failure

前処理関数

関数 preprocessText は以下のステップを実行します。

tokenizedDocument を使用してテキストをトークン化する。
lower を使用してテキストを小文字に変換する。
erasePunctuation を使用して句読点を消去する。

function documents = preprocessText(textData)

% Tokenize the text.
documents = tokenizedDocument(textData);

% Convert to lowercase.
documents = lower(documents);

% Erase punctuation.
documents = erasePunctuation(documents);

end

参考

深層学習を使用したテキスト データの分類