tokenizedDocument

テキスト解析用のトークン化された文書の配列

このページをすべて展開する

説明

トークン化された文書は、テキスト解析に使用される単語 ("トークン" とも呼ばれる) のコレクションとして表される文書です。

トークン化された文書は、次を行うために使用します。

Web アドレス、顔文字、絵文字、ハッシュタグなど、テキスト内の複雑なトークンを検出する。
関数 removeWords または関数 removeStopWords を使用して、ストップワードなどの単語を削除する。
関数 normalizeWords を使用して、ステミングやレンマ化などの単語レベルの前処理タスクを実行する。
bagOfWords オブジェクトおよび bagOfNgrams オブジェクトを使用して、単語および n-gram の頻度を解析する。
関数 addSentenceDetails と関数 addPartOfSpeechDetails を使用して、文の詳細と品詞の詳細を追加する。
関数 addEntityDetails を使用してエンティティタグを追加する。
関数 addDependencyDetails を使用して、文法的依存関係の詳細を追加する。
関数 tokenDetails を使用してトークンの詳細を表示する。

関数は、英語、日本語、ドイツ語、および韓国語のテキストをサポートしています。他の言語で tokenizedDocument を使用する方法については、言語に関する考慮事項を参照してください。

作成

構文

documents = tokenizedDocument

documents = tokenizedDocument(str)

documents = tokenizedDocument(str,Name,Value)

説明

documents = tokenizedDocument は、トークンをもたないスカラーのトークン化文書を作成します。

documents = tokenizedDocument(str) は、string 配列の要素をトークン化し、トークン化文書配列を返します。

例

documents = tokenizedDocument(str,Name,Value) は、1 つ以上の名前と値のペアの引数を使用して、追加のオプションを指定します。

例

入力引数

すべて展開する

`str` — 入力テキスト
string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | string 配列の cell 配列

入力テキスト。string 配列、文字ベクトル、文字ベクトルの cell 配列、または string 配列の cell 配列として指定します。

入力テキストがまだ単語に分割されていない場合、str は string 配列、文字ベクトル、文字ベクトルの cell 配列、または string スカラーの cell 配列でなければなりません。

例: ["an example of a short document";"a second short document"]

例: 'an example of a single document'

例: {'an example of a short document';'a second short document'}

入力テキストが既に単語に分割されている場合は、TokenizeMethod を "none" に指定します。str に 1 つの文書が含まれる場合、これは単語の string ベクトルであるか、文字ベクトルの行 cell 配列であるか、または単語から成る 1 つの string ベクトルを含む cell 配列でなければなりません。str に複数の文書が含まれる場合、これは string 配列の cell 配列でなければなりません。

例: ["an" "example" "document"]

例: {'an','example','document'}

例: {["an" "example" "of" "a" "short" "document"]}

例: {["an" "example" "of" "a" "short" "document"];["a" "second" "short" "document"]}

データ型: string | char | cell

名前と値の引数

すべて展開する

オプションの引数のペアを Name1=Value1,...,NameN=ValueN として指定します。ここで、Name は引数名で、Value は対応する値です。名前と値の引数は他の引数の後に指定しなければなりませんが、ペアの順序は重要ではありません。

R2021a より前では、コンマを使用して名前と値をそれぞれ区切り、Name を引用符で囲みます。

例: DetectPatterns={'email-address','web-address'} は、電子メールアドレスと Web アドレスを検出します。

`TokenizeMethod` — 文書をトークン化する方法
`"unicode"` | `"mecab"` | `mecabOptions` オブジェクト | `"none"`

文書をトークン化する方法。次のいずれかの値として指定します。

"unicode" – Unicode^® Standard Annex #29 [1]と ICU トークナイザー[2]に基づく規則を使用して、入力テキストをトークン化します。str が cell 配列の場合、str の要素は string スカラーまたは文字ベクトルでなければなりません。Language が "en" または "de" である場合、"unicode" が既定値になります。
"mecab" – MeCab トークナイザー[3]を使用して、日本語と韓国語のテキストをトークン化します。Language が "ja" または "ko" である場合、"mecab" が既定値になります。
mecabOptions オブジェクト – mecabOptions オブジェクトで指定された MeCab オプションを使用して、日本語と韓国語のテキストをトークン化します。
"none" – 入力テキストをトークン化しません。

`DetectPatterns` — 検出する複雑なトークンのパターン
`"all"` (既定値) | 文字ベクトル | string 配列 | 文字ベクトルの cell 配列

検出する複雑なトークンのパターン。"none" または "all" として指定するか、次の値のうち 1 つ以上を含む string 配列または cell 配列として指定します。

"email-address" – 電子メールアドレスを検出します。たとえば、"user@domain.com" を単一のトークンとして扱います。
"web-address" – Web アドレスを検出します。たとえば、"https://www.mathworks.com" を単一のトークンとして扱います。
"hashtag" – ハッシュタグを検出します。たとえば、"#MATLAB" を単一のトークンとして扱います。
"at-mention" – @-メンションを検出します。たとえば、"@MathWorks" を単一のトークンとして扱います。
"emoticon" – 顔文字を検出します。たとえば、":-D" を単一のトークンとして扱います。

DetectPatterns が "none" である場合、関数は複雑なトークンパターンを検出しません。DetectPatterns が "all" である場合、関数はこのリストの複雑なトークンパターンすべてを検出します。

例: DetectPatterns="hashtag"

例: DetectPatterns={'email-address','web-address'}

データ型: char | string | cell

`CustomTokens` — 検出するカスタムトークン
`''` (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

検出するカスタムトークン。次のいずれかの値として指定します。

カスタムトークンが格納された string 配列、文字ベクトル、または文字ベクトルの cell 配列。
Token という名前の列にカスタムトークンが格納され、Type という名前の列に対応するトークンタイプが格納された table。

カスタムトークンを string 配列、文字ベクトル、または文字ベクトルの cell 配列として指定した場合、関数によってトークンタイプ "custom" が割り当てられます。カスタムトークンタイプを指定するには、table 入力を使用します。トークンタイプを表示するには、関数 tokenDetails を使用します。

競合するカスタムトークンが 2 つ以上ある場合、関数は最も長いトークンを使用します。カスタムトークンが正規表現と競合する場合、関数は正規表現を使用します。

例: CustomTokens=["C++" "C#"]

データ型: char | string | table | cell

`RegularExpressions` — 検出する正規表現
`''` (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

検出する正規表現。次のいずれかの値として指定します。

正規表現を含む string 配列、文字ベクトル、または文字ベクトルの cell 配列。
Pattern という名前の列に正規表現が格納され、Type という名前の列に対応するトークンタイプが格納された table。

正規表現を string 配列、文字ベクトル、または文字ベクトルの cell 配列として指定した場合、関数によってトークンタイプ "custom" が割り当てられます。カスタムトークンタイプを指定するには、table 入力を使用します。トークンタイプを表示するには、関数 tokenDetails を使用します。

競合する正規表現が 2 つ以上ある場合、関数は最後に一致したものを使用します。カスタムトークンが正規表現と競合する場合、関数は正規表現を使用します。

例: RegularExpressions=["ver:\d+" "rev:\d+"]

データ型: char | string | table | cell

`TopLevelDomains` — Web アドレス検出に使用するトップレベルドメイン
文字ベクトル | string 配列 | 文字ベクトルの cell 配列

Web アドレス検出に使用するトップレベルドメイン。文字ベクトル、string 配列、または文字ベクトルの cell 配列として指定します。既定では、この関数は topLevelDomains 関数の出力を使用します。

このオプションは、DetectPatterns が "all" であるか "web-address" を含む場合にのみ適用されます。

例: TopLevelDomains=["com" "net" "org"]

データ型: char | string | cell

`Language` — 言語
`"en"` | `"ja"` | `"de"` | `"ko"`

言語。次のいずれかのオプションとして指定します。

"en" – 英語。このオプションは、TokenizeMethod の既定値も "unicode" に設定します。
"ja" – 日本語。このオプションは、TokenizeMethod の既定値も "mecab" に設定します。
"de" – ドイツ語。このオプションは、TokenizeMethod の既定値も "unicode" に設定します。
"ko" – 韓国語。このオプションは、TokenizeMethod の既定値も "mecab" に設定します。

値を指定しなかった場合、この関数は関数 corpusLanguage を使用して入力テキストから言語を検出します。

このオプションは、トークンの言語の詳細を指定します。トークンの言語の詳細を表示するには、tokenDetails を使用します。これらの言語の詳細によって、関数 removeStopWords、addPartOfSpeechDetails、normalizeWords、addSentenceDetails、および addEntityDetails のトークンに対する動作が決まります。

Text Analytics Toolbox™ での言語サポートの詳細については、言語に関する考慮事項を参照してください。

例: Language="ja"

プロパティ

すべて展開する

`Vocabulary` — 文書内の一意の単語
string 配列

文書内の一意の単語。string 配列として指定します。単語は順不同で表示されます。

データ型: string

オブジェクト関数

すべて展開する

前処理

`erasePunctuation`	テキストや文書からの句読点の消去
`removeStopWords`	文書からのストップワードの削除
`removeWords`	文書または bag-of-words モデルからの選択単語の削除
`normalizeWords`	単語のステミングまたはレンマ化
`correctSpelling`	Correct spelling of words
`replaceWords`	文書内の単語の置き換え
`replaceNgrams`	Replace n-grams in documents
`removeEmptyDocuments`	Remove empty documents from tokenized document array, bag-of-words model, or bag-of-n-grams model
`lower`	小文字への文書の変換
`upper`	大文字への文書の変換

トークンの詳細

`tokenDetails`	トークン化された文書の配列内のトークンの詳細
`addSentenceDetails`	Add sentence numbers to documents
`addPartOfSpeechDetails`	Add part-of-speech tags to documents
`addLanguageDetails`	Add language identifiers to documents
`addTypeDetails`	Add token type details to documents
`addLemmaDetails`	Add lemma forms of tokens to documents
`addEntityDetails`	Add entity tags to documents
`addDependencyDetails`	文書への文法的依存関係の詳細の追加

エクスポート

writeTextDocument テキストファイルへの文書の書き込み

操作と変換

`doclength`	文書配列内の文書の長さ
`context`	Search documents for word or n-gram occurrences in context
`contains`	Check if pattern is substring in documents
`containsWords`	Check if word is member of documents
`containsNgrams`	Check if n-gram is member of documents
`splitSentences`	テキストから文への分割
`joinWords`	単語連結による文書から string への変換
`doc2cell`	文書から string ベクトルの cell 配列への変換
`string`	スカラー文書から string ベクトルへの変換
`plus`	文書の追加
`replace`	文書内の部分文字列の置き換え
`docfun`	Apply function to words in documents
`regexprep`	Replace text in words of documents using regular expression

表示

`wordcloud`	Create word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model
`sentenceChart`	Plot grammatical dependency parse tree of sentence

例

すべて折りたたむ

テキストのトークン化

ライブスクリプトを開く

トークン化された文書を string 配列から作成します。

str = [
    "an example of a short sentence" 
    "a second short sentence"]

str = 2×1 string
    "an example of a short sentence"
    "a second short sentence"

documents = tokenizedDocument(str)

documents = 
  2×1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

複雑なトークンの検出

ライブスクリプトを開く

トークン化された文書を string str から作成します。既定では、関数はハッシュタグ "#MATLAB"、顔文字 ":-D"、および Web アドレス "https://www.mathworks.com/help" を単一のトークンとして扱います。

str = "Learn how to analyze text in #MATLAB! :-D see https://www.mathworks.com/help/";
document = tokenizedDocument(str)

document = 
  tokenizedDocument:

   11 tokens: Learn how to analyze text in #MATLAB ! :-D see https://www.mathworks.com/help/

複雑なトークンとしてハッシュタグのみを検出するには、'DetectPatterns' オプションを 'hashtag' のみに指定します。関数は次に、顔文字 ":-D" と Web アドレス "https://www.mathworks.com/help" を複数のトークンにトークン化します。

document = tokenizedDocument(str,'DetectPatterns','hashtag')

document = 
  tokenizedDocument:

   24 tokens: Learn how to analyze text in #MATLAB ! : - D see https : / / www . mathworks . com / help /

文書からのストップワードの削除

ライブスクリプトを開く

removeStopWords を使用して、文書の配列からストップワードを削除します。関数 tokenizedDocument は文書が英語であることを検出するため、removeStopWords は英語のストップワードを削除します。

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)

newDocuments = 
  2×1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

文書内の単語のステミング

ライブスクリプトを開く

Porter ステマーを使用して、文書配列内の単語をステミングします。

documents = tokenizedDocument([
    "a strongly worded collection of words"
    "another collection of words"]);
newDocuments = normalizeWords(documents)

newDocuments = 
  2×1 tokenizedDocument:

    6 tokens: a strongli word collect of word
    4 tokens: anoth collect of word

カスタムトークンの指定

ライブスクリプトを開く

既定では、関数 tokenizedDocument は記号を含む単語とトークンを分割します。たとえば、関数は "C++" と "C#" を複数のトークンに分割します。

str = "I am experienced in MATLAB, C++, and C#.";
documents = tokenizedDocument(str)

documents = 
  tokenizedDocument:

   14 tokens: I am experienced in MATLAB , C + + , and C # .

記号を含むトークンを関数に分割させないようにするには、'CustomTokens' オプションを使用してカスタムトークンを指定します。

documents = tokenizedDocument(str,'CustomTokens',["C++" "C#"])

documents = 
  tokenizedDocument:

   11 tokens: I am experienced in MATLAB , C++ , and C# .

カスタムトークンのトークンタイプは "custom" です。トークンの詳細を表示します。列 Type には、トークンタイプが格納されています。

tdetails = tokenDetails(documents)

tdetails=11×5 table
        Token        DocumentNumber    LineNumber       Type        Language
    _____________    ______________    __________    ___________    ________

    "I"                    1               1         letters           en   
    "am"                   1               1         letters           en   
    "experienced"          1               1         letters           en   
    "in"                   1               1         letters           en   
    "MATLAB"               1               1         letters           en   
    ","                    1               1         punctuation       en   
    "C++"                  1               1         custom            en   
    ","                    1               1         punctuation       en   
    "and"                  1               1         letters           en   
    "C#"                   1               1         custom            en   
    "."                    1               1         punctuation       en

独自のトークンタイプを指定するには、Token という名前の列にトークンが格納された table としてカスタムトークンを入力し、Type という名前の列にそのタイプを入力します。記号を含まないトークンにカスタムタイプを割り当てるには、table にもそれを含めます。たとえば、"MATLAB"、"C++"、および "C#" を "programming-language" トークンタイプに割り当てる table を作成します。

T = table;
T.Token = ["MATLAB" "C++" "C#"]';
T.Type = ["programming-language" "programming-language" "programming-language"]'

T=3×2 table
     Token               Type         
    ________    ______________________

    "MATLAB"    "programming-language"
    "C++"       "programming-language"
    "C#"        "programming-language"

カスタムトークンの table を使用してテキストをトークン化し、トークンの詳細を表示します。

documents = tokenizedDocument(str,'CustomTokens',T);
tdetails = tokenDetails(documents)

tdetails=11×5 table
        Token        DocumentNumber    LineNumber            Type            Language
    _____________    ______________    __________    ____________________    ________

    "I"                    1               1         letters                    en   
    "am"                   1               1         letters                    en   
    "experienced"          1               1         letters                    en   
    "in"                   1               1         letters                    en   
    "MATLAB"               1               1         programming-language       en   
    ","                    1               1         punctuation                en   
    "C++"                  1               1         programming-language       en   
    ","                    1               1         punctuation                en   
    "and"                  1               1         letters                    en   
    "C#"                   1               1         programming-language       en   
    "."                    1               1         punctuation                en

正規表現を使用したカスタムトークンの指定

ライブスクリプトを開く

既定では、関数 tokenizedDocument は記号を含む単語とトークンを分割します。たとえば、関数はテキスト "ver:2" を複数のトークンに分割します。

str = "Upgraded to ver:2 rev:3.";
documents = tokenizedDocument(str)

documents = 
  tokenizedDocument:

   9 tokens: Upgraded to ver : 2 rev : 3 .

特定のパターンをもつトークンを関数が分割しないようにするには、'RegularExpressions' オプションを使用してそれらのパターンを指定します。

バージョン番号とリビジョン番号を示すトークンを検出するための正規表現 (それぞれ "ver:" と "rev:" の後に現れる数字の string) を指定します。

documents = tokenizedDocument(str,'RegularExpressions',["ver:\d+" "rev:\d+"])

documents = 
  tokenizedDocument:

   5 tokens: Upgraded to ver:2 rev:3 .

既定では、カスタムトークンは "custom" のトークンタイプをもちます。トークンの詳細を表示します。列 Type には、トークンタイプが格納されています。

tdetails = tokenDetails(documents)

tdetails=5×5 table
      Token       DocumentNumber    LineNumber       Type        Language
    __________    ______________    __________    ___________    ________

    "Upgraded"          1               1         letters           en   
    "to"                1               1         letters           en   
    "ver:2"             1               1         custom            en   
    "rev:3"             1               1         custom            en   
    "."                 1               1         punctuation       en

独自のトークンタイプを指定するには、Pattern という名前の列に正規表現が格納され、Type という名前の列にトークンタイプが格納された table として正規表現を入力します。

T = table;
T.Pattern = ["ver:\d+" "rev:\d+"]';
T.Type = ["version" "revision"]'

T=2×2 table
     Pattern        Type   
    _________    __________

    "ver:\d+"    "version" 
    "rev:\d+"    "revision"

カスタムトークンの table を使用してテキストをトークン化し、トークンの詳細を表示します。

documents = tokenizedDocument(str,'RegularExpressions',T);
tdetails = tokenDetails(documents)

tdetails=5×5 table
      Token       DocumentNumber    LineNumber       Type        Language
    __________    ______________    __________    ___________    ________

    "Upgraded"          1               1         letters           en   
    "to"                1               1         letters           en   
    "ver:2"             1               1         version           en   
    "rev:3"             1               1         revision          en   
    "."                 1               1         punctuation       en

文書での単語出現箇所の検索

ライブスクリプトを開く

サンプルデータを読み込みます。ファイル sonnetsPreprocessed.txt には、シェイクスピアのソネット集の前処理されたバージョンが格納されています。ファイルには、1 行に 1 つのソネットが含まれ、単語がスペースで区切られています。sonnetsPreprocessed.txt からテキストを抽出し、テキストを改行文字で文書に分割した後、文書をトークン化します。

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

"life" という単語を検索します。

tbl = context(documents,"life");
head(tbl)

                            Context                             Document    Word
    ________________________________________________________    ________    ____

    "consumst thy self single life ah thou issueless shalt "        9        10 
    "ainted counterfeit lines life life repair times pencil"       16        35 
    "d counterfeit lines life life repair times pencil pupi"       16        36 
    " heaven knows tomb hides life shows half parts write b"       17        14 
    "he eyes long lives gives life thee                    "       18        69 
    "tender embassy love thee life made four two alone sink"       45        23 
    "ves beauty though lovers life beauty shall black lines"       63        50 
    "s shorn away live second life second head ere beautys "       68        27

出現箇所を string 配列で表示します。

tbl.Context

ans = 23×1 string
    "consumst thy self single life ah thou issueless shalt "
    "ainted counterfeit lines life life repair times pencil"
    "d counterfeit lines life life repair times pencil pupi"
    " heaven knows tomb hides life shows half parts write b"
    "he eyes long lives gives life thee                    "
    "tender embassy love thee life made four two alone sink"
    "ves beauty though lovers life beauty shall black lines"
    "s shorn away live second life second head ere beautys "
    "e rehearse let love even life decay lest wise world lo"
    "st bail shall carry away life hath line interest memor"
    "art thou hast lost dregs life prey worms body dead cow"
    "           thoughts food life sweetseasond showers gro"
    "tten name hence immortal life shall though once gone w"
    " beauty mute others give life bring tomb lives life fa"
    "ve life bring tomb lives life fair eyes poets praise d"
    " steal thyself away term life thou art assured mine li"
    "fe thou art assured mine life longer thy love stay dep"
    " fear worst wrongs least life hath end better state be"
    "anst vex inconstant mind life thy revolt doth lie o ha"
    " fame faster time wastes life thou preventst scythe cr"
    "ess harmful deeds better life provide public means pub"
    "ate hate away threw savd life saying                  "
    " many nymphs vowd chaste life keep came tripping maide"

日本語のテキストのトークン化

ライブスクリプトを開く

tokenizedDocument を使用して日本語のテキストをトークン化します。関数は、日本語のテキストを自動的に検出します。

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];
documents = tokenizedDocument(str)

documents = 
  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

ドイツ語のテキストのトークン化

ライブスクリプトを開く

tokenizedDocument を使用してドイツの語テキストをトークン化します。関数は、ドイツ語のテキストを自動的に検出します。

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2×1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

詳細

すべて展開する

言語に関する考慮事項

関数 tokenizedDocument には、英語、日本語、ドイツ語、および韓国語専用の組み込みルールがあります。英語とドイツ語のテキストの場合、tokenizedDocument の 'unicode' トークン化メソッドは、Unicode Standard Annex #29[1]と ICU トークナイザー[2]に基づく規則を使用してトークンを検出し、ハッシュタグや URL などの複雑なトークンをより適切に検出できるように変更します。日本語と韓国語のテキストの場合、'mecab' トークン化メソッドは、MeCab トークナイザー[3]に基づく規則を使用してトークンを検出します。

他の言語については、tokenizedDocument を使用して試すことができます。tokenizedDocument で有用な結果が得られない場合は、テキストを手動でトークン化してみてください。手動でトークン化されたテキストから tokenizedDocument 配列を作成するには、'TokenizeMethod' オプションを 'none' に設定します。

詳細については、言語に関する考慮事項を参照してください。

参照

[1] Unicode Text Segmentation. https://www.unicode.org/reports/tr29/

[2] Boundary Analysis. https://unicode-org.github.io/icu/userguide/boundaryanalysis/

[3] MeCab: Yet Another Part-of-Speech and Morphological Analyzer. https://taku910.github.io/mecab/

バージョン履歴

R2017b で導入

すべて展開する

R2022a: `tokenizedDocument` は数字といくつかの特殊文字を含むトークンを分割しない

R2022a 以降、tokenizedDocument は、ピリオド、ハイフン、コロン、スラッシュ、科学表記など、一部の特殊文字の隣に数字が表示されるいくつかのトークンを分割しません。この動作により、数値、日付、および時刻を含むテキストをトークン化するときに、より良い結果が得られる可能性があります。

以前のバージョンでは、tokenizedDocument がそれらの文字で分割される場合がありました。この動作を再現するには、tokenizedDocument を使用する前に、テキストを手動でトークン化するか、特殊文字の前後に空白文字を挿入します。

R2019b: `tokenizedDocument` は韓国語を検出する

R2019b 以降、tokenizedDocument は韓国語を検出し、'Language' オプションを 'ko' に設定します。これにより、関数 addSentenceDetails、addPartOfSpeechDetails、removeStopWords、および normalizeWords の韓国語の文書入力に対する既定の動作が変更されます。この変更により、ソフトウェアは韓国語特有のルールと単語リストを解析に使用できるようになります。tokenizedDocument がテキストを韓国語として誤って検出した場合は、tokenizedDocument の名前と値のペア 'Language' を設定することにより、言語を手動で指定できます。

以前のバージョンでは、tokenizedDocument は通常、韓国語のテキストを英語として検出し、'Language' オプションを 'en' に設定します。この動作を再現するには、tokenizedDocument の 'Language' の名前と値のペアを手動で 'en' に設定します。

R2018b: `tokenizedDocument` は顔文字を検出する

R2018b 以降、tokenizedDocument は、既定で顔文字トークンを検出します。この動作により、顔文字を含むテキストの解析が容易になります。

R2017b と R2018a では、tokenizedDocument は顔文字トークンを複数のトークンに分割します。この動作を再現するには、tokenizedDocument で、'DetectPatterns' オプションを {'email-address','web-address','hashtag','at-mention'} に指定します。

R2018b: `tokenDetails` は絵文字用のトークンタイプ `emoji` を返す

R2018b 以降、tokenizedDocument は絵文字を検出し、関数 tokenDetails はこれらのトークンをタイプ "emoji" で報告します。これにより、絵文字を含むテキストの解析が容易になります。

R2018a では、tokenDetails は絵文字をタイプ "other" で報告します。タイプが "emoji" または "other" のトークンのインデックスを検出するには、インデックス idx = tdetails.Type == "emoji" | tdetails.Type == "other" を使用します。ここで、tdetails はトークンの詳細の table です。

R2018b: `tokenizedDocument` は数字間のスラッシュとコロンの文字で分割しない

R2018b 以降、tokenizedDocument は、スラッシュ、バックスラッシュ、またはコロン文字が 2 桁の間に表示される場合、これらの文字で分割しません。この動作により、日付や時刻を含むテキストをトークン化するときに、より良い結果が得られる可能性があります。

以前のバージョンでは、tokenizedDocument はこれらの文字で分割します。この動作を再現するには、tokenizedDocument を使用する前に、テキストを手動でトークン化するか、スラッシュ、バックスラッシュ、およびコロン文字の前後に空白文字を挿入します。

tokenizedDocument

説明

作成

構文

説明

入力引数

str — 入力テキスト string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | string 配列の cell 配列

名前と値の引数

TokenizeMethod — 文書をトークン化する方法 "unicode" | "mecab" | mecabOptions オブジェクト | "none"

DetectPatterns — 検出する複雑なトークンのパターン "all" (既定値) | 文字ベクトル | string 配列 | 文字ベクトルの cell 配列

CustomTokens — 検出するカスタム トークン '' (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

RegularExpressions — 検出する正規表現 '' (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

TopLevelDomains — Web アドレス検出に使用するトップレベル ドメイン 文字ベクトル | string 配列 | 文字ベクトルの cell 配列

Language — 言語 "en" | "ja" | "de" | "ko"

プロパティ

Vocabulary — 文書内の一意の単語 string 配列

オブジェクト関数

前処理

トークンの詳細

エクスポート

操作と変換

表示

例

テキストのトークン化

複雑なトークンの検出

文書からのストップ ワードの削除

文書内の単語のステミング

カスタム トークンの指定

正規表現を使用したカスタム トークンの指定

文書での単語出現箇所の検索

日本語のテキストのトークン化

ドイツ語のテキストのトークン化

詳細

言語に関する考慮事項

参照

バージョン履歴

R2022a: tokenizedDocument は数字といくつかの特殊文字を含むトークンを分割しない

R2019b: tokenizedDocument は韓国語を検出する

R2018b: tokenizedDocument は顔文字を検出する

R2018b: tokenDetails は絵文字用のトークン タイプ emoji を返す

R2018b: tokenizedDocument は数字間のスラッシュとコロンの文字で分割しない

参考

トピック

`str` — 入力テキスト
string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | string 配列の cell 配列

`TokenizeMethod` — 文書をトークン化する方法
`"unicode"` | `"mecab"` | `mecabOptions` オブジェクト | `"none"`

`DetectPatterns` — 検出する複雑なトークンのパターン
`"all"` (既定値) | 文字ベクトル | string 配列 | 文字ベクトルの cell 配列

`CustomTokens` — 検出するカスタムトークン
`''` (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

`RegularExpressions` — 検出する正規表現
`''` (既定値) | string 配列 | 文字ベクトル | 文字ベクトルの cell 配列 | table

`TopLevelDomains` — Web アドレス検出に使用するトップレベルドメイン
文字ベクトル | string 配列 | 文字ベクトルの cell 配列

`Language` — 言語
`"en"` | `"ja"` | `"de"` | `"ko"`

`Vocabulary` — 文書内の一意の単語
string 配列

文書からのストップワードの削除

カスタムトークンの指定

正規表現を使用したカスタムトークンの指定

R2022a: `tokenizedDocument` は数字といくつかの特殊文字を含むトークンを分割しない

R2019b: `tokenizedDocument` は韓国語を検出する

R2018b: `tokenizedDocument` は顔文字を検出する

R2018b: `tokenDetails` は絵文字用のトークンタイプ `emoji` を返す

R2018b: `tokenizedDocument` は数字間のスラッシュとコロンの文字で分割しない