removeStopWords

文書からのストップワードの削除

構文

newDocuments = removeStopWords(documents)

newDocuments = removeStopWords(documents,'IgnoreCase',false)

説明

"a"、"and"、"to"、"the" などの単語 (ストップワードと呼ばれる) は、データにノイズを付加する可能性があります。解析前にストップワードを削除するには、この関数を使用します。

関数は、英語、日本語、ドイツ語、および韓国語のテキストをサポートしています。他の言語で removeStopWords を使用する方法については、言語に関する考慮事項を参照してください。

newDocuments = removeStopWords(documents) は、tokenizedDocument 配列 documents からストップワードを削除します。既定では、関数は documents の言語の詳細に従って関数 stopWords によって指定されたストップワードリストを使用し、大文字と小文字を区別しません。

単語のカスタムリストを削除するには、関数 removeWords を使用します。

例

newDocuments = removeStopWords(documents,'IgnoreCase',false) は、関数 stopWords で指定されたストップワードリストと大文字小文字が一致するストップワードを削除します。

ヒント

removeStopWords はこの関数によって削除される情報を使用するため、関数 normalizeWords を使用する前に removeStopWords を使用します。

例

すべて折りたたむ

文書からのストップワードの削除

ライブスクリプトを開く

removeStopWords を使用して、文書の配列からストップワードを削除します。関数 tokenizedDocument は文書が英語であることを検出するため、removeStopWords は英語のストップワードを削除します。

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)

newDocuments = 
  2×1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

日本語のストップワードの削除

ライブスクリプトを開く

tokenizedDocument を使用して日本語のテキストをトークン化します。関数は、日本語のテキストを自動的に検出します。

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

removeStopWords を使用してストップワードを削除します。この関数は、documents の言語の詳細を使用して、どの言語のストップワードを削除するかを決定します。

documents = removeStopWords(documents)

documents = 
  3×1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

文書からのドイツ語ストップワードの削除

ライブスクリプトを開く

tokenizedDocument を使用してドイツの語テキストをトークン化します。関数は、ドイツ語のテキストを自動的に検出します。

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2×1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

関数 removeStopWords を使用してストップワードを削除します。関数は、文書の言語の詳細を使用して、どの言語のストップワードを削除するかを決定します。

documents = removeStopWords(documents)

documents = 
  2×1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

入力引数

すべて折りたたむ

`documents` — 入力文書
`tokenizedDocument` 配列

入力文書。tokenizedDocument 配列として指定します。

出力引数

すべて折りたたむ

`newDocuments` — 出力文書
`tokenizedDocument` 配列

出力文書。tokenizedDocument 配列として返されます。

詳細

すべて折りたたむ

言語に関する考慮事項

関数 stopWords および関数 removeStopWords は、英語、日本語、ドイツ語、および韓国語のストップワードのみをサポートします。

他の言語からストップワードを削除するには、removeWords を使用して、削除する独自のストップワードを指定します。

アルゴリズム

すべて折りたたむ

言語の詳細

tokenizedDocument オブジェクトには、言語の詳細を含むトークンに関する詳細が含まれています。入力文書の言語の詳細によって、removeStopWords の動作が決まります。既定では、関数 tokenizedDocument は入力テキストの言語を自動的に検出します。言語の詳細を手動で指定するには、tokenizedDocument の Language オプションを使用します。トークンの詳細を表示するには、関数 tokenDetails を使用します。

バージョン履歴

R2018b で導入

参考

removeStopWords

構文

説明

例

文書からのストップ ワードの削除

日本語のストップ ワードの削除

文書からのドイツ語ストップ ワードの削除

入力引数

documents — 入力文書 tokenizedDocument 配列

出力引数

newDocuments — 出力文書 tokenizedDocument 配列

詳細

言語に関する考慮事項

アルゴリズム

言語の詳細

バージョン履歴

参考

トピック

文書からのストップワードの削除

日本語のストップワードの削除

文書からのドイツ語ストップワードの削除

`documents` — 入力文書
`tokenizedDocument` 配列

`newDocuments` — 出力文書
`tokenizedDocument` 配列