Main Content

文書のスペルの修正

この例では、Hunspell を使用して文書のスペルを修正する方法を示します。

テキスト データの読み込み

トークン化された文書の配列を作成します。

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)
documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

スペルの修正

関数 correctSpelling を使用して文書のスペルを修正します。

updatedDocuments = correctSpelling(documents)
updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

次の点に注意してください。

  • 入力単語 "MATLAB" が "MAT" と "LAB" の 2 つの単語に分割されている。

  • 入力単語 "worrds" が "words" に変更されている。

  • 入力単語 "lemmatization" が "solemnization" に変更されている。

  • 入力単語 "Analytics" が "Analytic" に変更されている。

  • 入力単語 "providesfunctions" が "provides" と "functions" の 2 つの単語に分割されている。

カスタム単語の指定

ソフトウェアが特定の単語を更新しないようにするために、関数 correctSpelling'KnownWords' オプションを使用して、既知の単語のリストを提供できます。

"MATLAB"、"Analytics"、および "lemmatization" という単語を既知の単語として指定し、文書のスペルを再度修正します。

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

ここで、"MATLAB"、"Analytics"、および "lemmatization" という単語が未変更のままであることに注意してください。

参考

|

関連するトピック