normalizeWords
単語のステミングまたはレンマ化
構文
説明
normalizeWords を使用して、単語を語根形に短縮します。英語の単語を "レンマ化" (それらを辞書形に短縮) するには、'Style' オプションを 'lemma' に設定します。
関数は、英語、日本語、ドイツ語、および韓国語のテキストをサポートしています。
は、updatedDocuments = normalizeWords(documents)documents 内の単語を語根形に短縮します。英語とドイツ語のテキストの場合、関数は、既定でそれぞれ英語とドイツ語のテキストに対応する Porter ステマーを使用して単語をステミングします。日本語と韓国語のテキストの場合、関数は、既定で MeCab トークナイザーを使用して単語をレンマ化します。
は、string 配列 updatedWords = normalizeWords(words)words 内の各単語を語根形に短縮します。
は単語の短縮に加えて単語の言語も指定します。updatedWords = normalizeWords(words,'Language',language)