removeStopWords
文書からのストップ ワードの削除
構文
説明
"a"、"and"、"to"、"the" などの単語 (ストップ ワードと呼ばれる) は、データにノイズを付加する可能性があります。解析前にストップ ワードを削除するには、この関数を使用します。
関数は、英語、日本語、ドイツ語、および韓国語のテキストをサポートしています。他の言語で removeStopWords
を使用する方法については、言語に関する考慮事項を参照してください。
は、newDocuments
= removeStopWords(documents
)tokenizedDocument
配列 documents
からストップ ワードを削除します。既定では、関数は documents
の言語の詳細に従って関数 stopWords
によって指定されたストップ ワード リストを使用し、大文字と小文字を区別しません。
単語のカスタム リストを削除するには、関数 removeWords
を使用します。
は、関数 newDocuments
= removeStopWords(documents
,'IgnoreCase',false)stopWords
で指定されたストップ ワード リストと大文字小文字が一致するストップ ワードを削除します。
ヒント
removeStopWords
はこの関数によって削除される情報を使用するため、関数 normalizeWords
を使用する前に removeStopWords
を使用します。
例
入力引数
出力引数
詳細
アルゴリズム
バージョン履歴
R2018b で導入