erasePunctuation
テキストや文書からの句読点の消去
構文
説明
は、newDocuments = erasePunctuation(documents)documents から句読点と記号を消去します。句読点と記号の文字を削除した後の単語が空である場合、関数はそれを削除します。トークン化された文書入力の場合、この関数はタイプが 'punctuation' および 'other' のトークンから句読点を消去します。たとえば、関数は URL や電子メール アドレスからは句読点や記号を消去しません。
は、指定されたトークン タイプからのみ句読点と記号を消去します。newDocuments = erasePunctuation(documents,'TokenTypes',types)
例
入力引数
出力引数
詳細
ヒント
string 入力の場合、
erasePunctuationは URL と HTML タグから句読点を削除します。この動作により、関数eraseTags、関数eraseURLs、関数decodeHTMLEntitiesが期待どおりに動作しない可能性があります。これらの関数を使用してテキストを前処理する場合は、erasePunctuationを使用する前にこれらの関数を使用するようにしてください。
参照
[1] Unicode Character Categories. https://www.fileformat.info/info/unicode/category/index.htm