メインコンテンツ

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

モデル化と予測

トピック モデルと単語埋め込みを使用して予測モデルを開発する

高次元のテキスト データセットからクラスターを検出して特徴を抽出するために、LSA、LDA、単語埋め込みなどの機械学習の手法やモデルを使用できます。Text Analytics Toolbox™ で作成された特徴を他のデータ ソースの特徴と組み合わせることができます。これらの特徴を使用して、テキスト、数値、およびその他の種類のデータを利用する機械学習モデルを構築することができます。

関数

すべて展開する

bagOfWordsbag-of-words モデル
bagOfNgramsbag-of-n-grams モデル
addDocumentAdd documents to bag-of-words or bag-of-n-grams model
removeDocumentRemove documents from bag-of-words or bag-of-n-grams model
removeInfrequentWordsbag-of-words モデルからカウント数の少ない単語を削除する
removeInfrequentNgramsRemove infrequently seen n-grams from bag-of-n-grams model
removeWords文書または bag-of-words モデルからの選択単語の削除
removeNgramsRemove n-grams from bag-of-n-grams model
removeEmptyDocumentsRemove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model
topkwordsMost important words in bag-of-words model or LDA topic
topkngramsMost frequent n-grams
encodeEncode documents as matrix of word or n-gram counts
tfidf単語頻度-逆文書頻度 (tf-idf) 行列
joinCombine multiple bag-of-words or bag-of-n-grams models
vaderSentimentScoresSentiment scores with VADER algorithm
ratioSentimentScoresSentiment scores with ratio rule
encodeTokenize and encode text for transformer neural network (R2023b 以降)
decodeConvert token codes to tokens (R2023b 以降)
encodeTokensConvert tokens to token codes (R2023b 以降)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 以降)
wordTokenizeTokenize text into words using tokenizer (R2023b 以降)
bert事前学習済みの BERT モデル (R2023b 以降)
bertDocumentClassifierBERT document classifier (R2023b 以降)
classifyBERT 文書分類器を使用して文書を分類する (R2023b 以降)
bertTokenizerWordPiece BERT tokenizer (R2023b 以降)
bpeTokenizerByte pair encoding tokenizer (R2024a 以降)
encodeTokenize and encode text for transformer neural network (R2023b 以降)
decodeConvert token codes to tokens (R2023b 以降)
encodeTokensConvert tokens to token codes (R2023b 以降)
subwordTokenizeTokenize text into subwords using BERT tokenizer (R2023b 以降)
trainBERTDocumentClassifierBERT 文書分類器の学習 (R2023b 以降)
wordTokenizeTokenize text into words using tokenizer (R2023b 以降)
documentEmbedding文書をベクトルにマッピングする文書埋め込みモデル (R2024a 以降)
embedMap document to embedding vector (R2024a 以降)
fastTextWordEmbedding事前学習済みの fastText 単語埋め込み
wordEncodingWord encoding model to map words to indices and back
doc2sequenceConvert documents to sequences for deep learning
wordEmbeddingLayer深層学習ニューラル ネットワーク用の単語埋め込み層
word2vec埋め込みベクトルへの単語のマッピング
word2indMap word to encoding index
vec2word単語への埋め込みベクトルのマッピング
ind2wordMap encoding index to word
isVocabularyWordTest if word is member of word embedding or encoding
readWordEmbeddingファイルからの単語埋め込みの読み取り
trainWordEmbeddingTrain word embedding
writeWordEmbedding単語埋め込みファイルの書き込み
wordEmbeddingベクトルへの単語のマッピングとその逆変換のための単語埋め込みモデル
extractSummaryExtract summary from documents
rakeKeywordsExtract keywords using RAKE
textrankKeywordsExtract keywords using TextRank
bleuEvaluationScoreEvaluate translation or summarization with BLEU similarity score
rougeEvaluationScoreEvaluate translation or summarization with ROUGE similarity score
bm25SimilarityDocument similarities with BM25 algorithm
cosineSimilarityコサイン類似度を使用した文書の類似度
textrankScoresDocument scoring with TextRank algorithm
lexrankScoresDocument scoring with LexRank algorithm
mmrScoresDocument scoring with Maximal Marginal Relevance (MMR) algorithm
fitldaFit latent Dirichlet allocation (LDA) model
fitlsaFit LSA model
resumeResume fitting LDA model
logpDocument log-probabilities and goodness of fit of LDA model
predictPredict top LDA topics of documents
transformTransform documents into lower-dimensional space
ldaModel潜在的ディリクレ配分 (LDA) モデル
lsaModelLatent semantic analysis (LSA) model
addEntityDetailsAdd entity tags to documents
trainHMMEntityModelTrain HMM-based model for named entity recognition (NER) (R2023a 以降)
predictPredict entities using named entity recognition (NER) model (R2023a 以降)
hmmEntityModelHMM-based model for named entity recognition (NER) (R2023a 以降)
wordcloudCreate word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model
textscatterテキストの 2 次元散布図
textscatter3テキストの 3 次元散布図

トピック

分類とモデリング

センチメント分析とキーワード抽出

深層学習

言語サポート

注目の例