Main Content

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

モデル化と予測

トピック モデルと単語埋め込みを使用して予測モデルを開発する

高次元のテキスト データセットからクラスターを検出して特徴を抽出するために、LSA、LDA、単語埋め込みなどの機械学習の手法やモデルを使用できます。Text Analytics Toolbox™ で作成された特徴を他のデータ ソースの特徴と組み合わせることができます。これらの特徴を使用して、テキスト、数値、およびその他の種類のデータを利用する機械学習モデルを構築することができます。

関数

すべて展開する

bagOfWordsbag-of-words モデル
bagOfNgramsbag-of-n-grams モデル
addDocumentAdd documents to bag-of-words or bag-of-n-grams model
removeDocumentRemove documents from bag-of-words or bag-of-n-grams model
removeInfrequentWordsbag-of-words モデルからカウント数の少ない単語を削除する
removeInfrequentNgramsRemove infrequently seen n-grams from bag-of-n-grams model
removeWords文書または bag-of-words モデルからの選択単語の削除
removeNgramsRemove n-grams from bag-of-n-grams model
removeEmptyDocumentsRemove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model
topkwordsMost important words in bag-of-words model or LDA topic
topkngramsMost frequent n-grams
encodeEncode documents as matrix of word or n-gram counts
tfidf単語頻度-逆文書頻度 (tf-idf) 行列
joinCombine multiple bag-of-words or bag-of-n-grams models
vaderSentimentScoresSentiment scores with VADER algorithm (R2019b 以降)
ratioSentimentScoresSentiment scores with ratio rule (R2019b 以降)
encodeTokenize and encode text for transformer neural network (R2023b 以降)
decodeConvert token codes to tokens (R2023b 以降)
encodeTokensConvert tokens to token codes (R2023b 以降)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 以降)
wordTokenizeTokenize text into words using tokenizer (R2023b 以降)
bertPretrained BERT model (R2023b 以降)
bertTokenizerWordPiece BERT tokenizer (R2023b 以降)
bertDocumentClassifierBERT document classifier (R2023b 以降)
classifyClassify document using BERT document classifier (R2023b 以降)
encodeTokenize and encode text for transformer neural network (R2023b 以降)
decodeConvert token codes to tokens (R2023b 以降)
encodeTokensConvert tokens to token codes (R2023b 以降)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 以降)
wordTokenizeTokenize text into words using tokenizer (R2023b 以降)
fastTextWordEmbedding事前学習済みの fastText 単語埋め込み
wordEncodingWord encoding model to map words to indices and back
doc2sequenceConvert documents to sequences for deep learning
wordEmbeddingLayer深層学習ニューラル ネットワーク用の単語埋め込み層
word2vec埋め込みベクトルへの単語のマッピング
word2indMap word to encoding index
vec2wordMap embedding vector to word
ind2wordMap encoding index to word
isVocabularyWordTest if word is member of word embedding or encoding
readWordEmbeddingファイルからの単語埋め込みの読み取り
trainWordEmbeddingTrain word embedding
writeWordEmbedding単語埋め込みファイルの書き込み
wordEmbeddingベクトルへの単語のマッピングとその逆変換のための単語埋め込みモデル
extractSummaryExtract summary from documents (R2020a 以降)
rakeKeywordsExtract keywords using RAKE (R2020b 以降)
textrankKeywordsExtract keywords using TextRank (R2020b 以降)
bleuEvaluationScoreEvaluate translation or summarization with BLEU similarity score (R2020a 以降)
rougeEvaluationScoreEvaluate translation or summarization with ROUGE similarity score (R2020a 以降)
bm25SimilarityDocument similarities with BM25 algorithm (R2020a 以降)
cosineSimilarityコサイン類似度を使用した文書の類似度 (R2020a 以降)
textrankScoresDocument scoring with TextRank algorithm (R2020a 以降)
lexrankScoresDocument scoring with LexRank algorithm (R2020a 以降)
mmrScoresDocument scoring with Maximal Marginal Relevance (MMR) algorithm (R2020a 以降)
fitldaFit latent Dirichlet allocation (LDA) model
fitlsaFit LSA model
resumeResume fitting LDA model
logpDocument log-probabilities and goodness of fit of LDA model
predictPredict top LDA topics of documents
transformTransform documents into lower-dimensional space
ldaModel潜在的ディリクレ配分 (LDA) モデル
lsaModelLatent semantic analysis (LSA) model
addEntityDetailsAdd entity tags to documents
trainHMMEntityModelTrain HMM-based model for named entity recognition (NER) (R2023a 以降)
predictPredict entities using named entity recognition (NER) model (R2023a 以降)
hmmEntityModelHMM-based model for named entity recognition (NER) (R2023a 以降)
wordcloudCreate word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model
textscatterテキストの 2 次元散布図
textscatter33-D scatter plot of text

トピック

分類とモデリング

センチメント分析とキーワード抽出

深層学習

言語サポート