erasePunctuation
テキストや文書からの句読点の消去
構文
説明
は、newDocuments
= erasePunctuation(documents
)documents
から句読点と記号を消去します。句読点と記号の文字を削除した後の単語が空である場合、関数はそれを削除します。トークン化された文書入力の場合、この関数はタイプが 'punctuation'
および 'other'
のトークンから句読点を消去します。たとえば、関数は URL や電子メール アドレスからは句読点や記号を消去しません。
は、指定されたトークン タイプからのみ句読点と記号を消去します。newDocuments
= erasePunctuation(documents
,'TokenTypes',types
)
例
入力引数
出力引数
詳細
ヒント
string 入力の場合、
erasePunctuation
は URL と HTML タグから句読点を削除します。この動作により、関数eraseTags
、関数eraseURLs
、関数decodeHTMLEntities
が期待どおりに動作しない可能性があります。これらの関数を使用してテキストを前処理する場合は、erasePunctuation
を使用する前にこれらの関数を使用するようにしてください。
参照
[1] Unicode Character Categories. https://www.fileformat.info/info/unicode/category/index.htm