bagOfWords
bag-of-words モデル
説明
bag-of-words モデル (用語頻度カウンターとも呼ばれる) は、コレクションの各文書内で単語が出現する回数を記録します。
bagOfWords は、テキストを単語に分割しません。トークン化された文書の配列を作成するには、tokenizedDocument を参照してください。
作成
説明
bag = bagOfWords
bag = bagOfWords(uniqueWords,counts)uniqueWords 内の単語と counts 内の対応する頻度カウントを使用して、bag-of-words モデルを作成します。
入力引数
プロパティ
オブジェクト関数
| encode | Encode documents as matrix of word or n-gram counts | 
| tfidf | 単語頻度-逆文書頻度 (tf-idf) 行列 | 
| topkwords | Most important words in bag-of-words model or LDA topic | 
| addDocument | Add documents to bag-of-words or bag-of-n-grams model | 
| removeDocument | Remove documents from bag-of-words or bag-of-n-grams model | 
| removeEmptyDocuments | Remove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model | 
| removeWords | 文書または bag-of-words モデルからの選択単語の削除 | 
| removeInfrequentWords | bag-of-words モデルからカウント数の少ない単語を削除する | 
| join | Combine multiple bag-of-words or bag-of-n-grams models | 
| wordcloud | Create word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model | 
例
ヒント
- ホールド アウトされたテスト セットを作業に使用する場合は、 - bagOfWordsを使用する前にテキスト データを分割します。そうしないと、bag-of-words モデルによって解析に偏りが生じる可能性があります。
バージョン履歴
R2017b で導入
