Main Content

removeStopWords

文書からのストップ ワードの削除

説明

"a"、"and"、"to"、"the" などの単語 (ストップ ワードと呼ばれる) は、データにノイズを付加する可能性があります。解析前にストップ ワードを削除するには、この関数を使用します。

関数は、英語、日本語、ドイツ語、および韓国語のテキストをサポートしています。他の言語で removeStopWords を使用する方法については、言語に関する考慮事項を参照してください。

newDocuments = removeStopWords(documents) は、tokenizedDocument 配列 documents からストップ ワードを削除します。既定では、関数は documents の言語の詳細に従って関数 stopWords によって指定されたストップ ワード リストを使用し、大文字と小文字を区別しません。

単語のカスタム リストを削除するには、関数 removeWords を使用します。

newDocuments = removeStopWords(documents,'IgnoreCase',false) は、関数 stopWords で指定されたストップ ワード リストと大文字小文字が一致するストップ ワードを削除します。

ヒント

removeStopWords はこの関数によって削除される情報を使用するため、関数 normalizeWords を使用する前に removeStopWords を使用します。

すべて折りたたむ

removeStopWords を使用して、文書の配列からストップ ワードを削除します。関数 tokenizedDocument は文書が英語であることを検出するため、removeStopWords は英語のストップ ワードを削除します。

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

tokenizedDocument を使用して日本語のテキストをトークン化します。関数は、日本語のテキストを自動的に検出します。

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

removeStopWords を使用してストップ ワードを削除します。この関数は、documents の言語の詳細を使用して、どの言語のストップ ワードを削除するかを決定します。

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

tokenizedDocument を使用してドイツの語テキストをトークン化します。関数は、ドイツ語のテキストを自動的に検出します。

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

関数 removeStopWords を使用してストップ ワードを削除します。関数は、文書の言語の詳細を使用して、どの言語のストップ ワードを削除するかを決定します。

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

入力引数

すべて折りたたむ

入力文書。tokenizedDocument 配列として指定します。

出力引数

すべて折りたたむ

出力文書。tokenizedDocument 配列として返されます。

詳細

すべて折りたたむ

言語に関する考慮事項

関数 stopWords および関数 removeStopWords は、英語、日本語、ドイツ語、および韓国語のストップ ワードのみをサポートします。

他の言語からストップ ワードを削除するには、removeWords を使用して、削除する独自のストップ ワードを指定します。

アルゴリズム

すべて折りたたむ

言語の詳細

tokenizedDocument オブジェクトには、言語の詳細を含むトークンに関する詳細が含まれています。入力文書の言語の詳細によって、removeStopWords の動作が決まります。既定では、関数 tokenizedDocument は入力テキストの言語を自動的に検出します。言語の詳細を手動で指定するには、tokenizedDocumentLanguage オプションを使用します。トークンの詳細を表示するには、関数 tokenDetails を使用します。

バージョン履歴

R2018b で導入