bagOfWords
bag-of-words モデル
説明
bag-of-words モデル (用語頻度カウンターとも呼ばれる) は、コレクションの各文書内で単語が出現する回数を記録します。
bagOfWords
は、テキストを単語に分割しません。トークン化された文書の配列を作成するには、tokenizedDocument
を参照してください。
作成
説明
は、空の bag-of-words モデルを作成します。bag
= bagOfWords
は、bag
= bagOfWords(uniqueWords
,counts
)uniqueWords
内の単語と counts
内の対応する頻度カウントを使用して、bag-of-words モデルを作成します。
入力引数
プロパティ
オブジェクト関数
encode | Encode documents as matrix of word or n-gram counts |
tfidf | 単語頻度-逆文書頻度 (tf-idf) 行列 |
topkwords | Most important words in bag-of-words model or LDA topic |
addDocument | Add documents to bag-of-words or bag-of-n-grams model |
removeDocument | Remove documents from bag-of-words or bag-of-n-grams model |
removeEmptyDocuments | Remove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model |
removeWords | 文書または bag-of-words モデルからの選択単語の削除 |
removeInfrequentWords | bag-of-words モデルからカウント数の少ない単語を削除する |
join | Combine multiple bag-of-words or bag-of-n-grams models |
wordcloud | Create word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model |
例
ヒント
ホールド アウトされたテスト セットを作業に使用する場合は、
bagOfWords
を使用する前にテキスト データを分割します。そうしないと、bag-of-words モデルによって解析に偏りが生じる可能性があります。
バージョン履歴
R2017b で導入