メインコンテンツ

addLemmaDetails

文書に対するトークンのレンマの形式の追加

説明

addLemmaDetails 関数を使用して、文書にレンマの形式を追加します。

関数は、英語、日本語、および韓国語のテキストをサポートしています。

updatedDocuments = addLemmaDetails(documents) は、レンマの詳細を documents に追加し、トークンの詳細を更新します。updatedDocuments からレンマの詳細を取得するには、tokenDetails を使用します。

updatedDocuments = addLemmaDetails(documents,'DiscardKnownValues',true) は、以前に計算された詳細を破棄し、それらを再計算します。

ヒント

addLemmaDetails は、lower 関数、upper 関数、および normalizeWords 関数を使用する前に使用します。addLemmaDetails は、これらの関数によって削除される情報を使用するためです。

すべて折りたたむ

トークン化された文書の配列を作成します。

str = [ ...
    "The dogs ran after the cat."
    "I am building a house."];
documents = tokenizedDocument(str);

addLemmaDetails を使用して、文書にレンマの詳細を追加します。この関数はテキストをレンマ化し、各トークンのレンマの形式を tokenDetails によって返される table に追加します。最初のいくつかのトークンについて、更新されたトークンの詳細を表示します。

documents = addLemmaDetails(documents);
tdetails = tokenDetails(documents);
head(tdetails)
     Token     DocumentNumber    LineNumber       Type        Language     Lemma 
    _______    ______________    __________    ___________    ________    _______

    "The"            1               1         letters           en       "the"  
    "dogs"           1               1         letters           en       "dog"  
    "ran"            1               1         letters           en       "run"  
    "after"          1               1         letters           en       "after"
    "the"            1               1         letters           en       "the"  
    "cat"            1               1         letters           en       "cat"  
    "."              1               1         punctuation       en       "."    
    "I"              2               1         letters           en       "i"    

入力引数

すべて折りたたむ

入力文書。tokenizedDocument 配列として指定します。

出力引数

すべて折りたたむ

更新された文書。tokenizedDocument 配列として返されます。updatedDocuments からトークンの詳細を取得するには、tokenDetails を使用します。

バージョン履歴

R2018b で導入