tokenDetails
トークン化された文書の配列内のトークンの詳細
説明
例
トークン化された文書の配列を作成します。
str = [ ... "This is an example document. It has two sentences." "This document has one sentence and an emoticon. :)" "Here is another example document. :D"]; documents = tokenizedDocument(str);
最初のいくつかのトークンの詳細を表示します。
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language
__________ ______________ __________ ___________ ________
"This" 1 1 letters en
"is" 1 1 letters en
"an" 1 1 letters en
"example" 1 1 letters en
"document" 1 1 letters en
"." 1 1 punctuation en
"It" 1 1 letters en
"has" 1 1 letters en
type 変数には各トークンのタイプが格納されます。文書内の顔文字を表示します。
idx = tdetails.Type == "emoticon";
tdetails(idx,:)ans=2×5 table
Token DocumentNumber LineNumber Type Language
_____ ______________ __________ ________ ________
":)" 2 1 emoticon en
":D" 3 1 emoticon en
トークン化された文書の配列を作成します。
str = [ ... "This is an example document. It has two sentences." "This document has one sentence." "Here is another example document. It also has two sentences."]; documents = tokenizedDocument(str);
addSentenceDetails を使用して、文書に文の詳細を追加します。この関数は、tokenDetails によって返される table に文番号を追加します。最初のいくつかのトークンについて、更新されたトークンの詳細を表示します。
documents = addSentenceDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language
__________ ______________ ______________ __________ ___________ ________
"This" 1 1 1 letters en
"is" 1 1 1 letters en
"an" 1 1 1 letters en
"example" 1 1 1 letters en
"document" 1 1 1 letters en
"." 1 1 1 punctuation en
"It" 1 2 1 letters en
"has" 1 2 1 letters en
3 番目の文書における 2 番目の文のトークンの詳細を表示します。
idx = tdetails.DocumentNumber == 3 & ...
tdetails.SentenceNumber == 2;
tdetails(idx,:)ans=6×6 table
Token DocumentNumber SentenceNumber LineNumber Type Language
___________ ______________ ______________ __________ ___________ ________
"It" 3 2 1 letters en
"also" 3 2 1 letters en
"has" 3 2 1 letters en
"two" 3 2 1 letters en
"sentences" 3 2 1 letters en
"." 3 2 1 punctuation en
サンプル データを読み込みます。ファイル sonnetsPreprocessed.txt には、シェイクスピアのソネット集の前処理されたバージョンが格納されています。ファイルには、1 行に 1 つのソネットが含まれ、単語がスペースで区切られています。sonnetsPreprocessed.txt からテキストを抽出し、テキストを改行文字で文書に分割した後、文書をトークン化します。
filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);最初のいくつかのトークンの詳細を表示します。
tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber LineNumber Type Language
___________ ______________ __________ _______ ________
"fairest" 1 1 letters en
"creatures" 1 1 letters en
"desire" 1 1 letters en
"increase" 1 1 letters en
"thereby" 1 1 letters en
"beautys" 1 1 letters en
"rose" 1 1 letters en
"might" 1 1 letters en
addPartOfSpeechDetails 関数を使用して、文書に品詞の詳細を追加します。この関数は、まず文書に文の情報を追加してから、tokenDetails によって返される table に品詞タグを追加します。最初のいくつかのトークンについて、更新されたトークンの詳細を表示します。
documents = addPartOfSpeechDetails(documents); tdetails = tokenDetails(documents); head(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech
___________ ______________ ______________ __________ _______ ________ ______________
"fairest" 1 1 1 letters en adjective
"creatures" 1 1 1 letters en noun
"desire" 1 1 1 letters en noun
"increase" 1 1 1 letters en noun
"thereby" 1 1 1 letters en adverb
"beautys" 1 1 1 letters en noun
"rose" 1 1 1 letters en noun
"might" 1 1 1 letters en auxiliary-verb
入力引数
入力文書。tokenizedDocument 配列として指定します。
出力引数
トークンの詳細の table。tdetails の変数は次のとおりです。
| 名前 | 説明 |
|---|---|
Token | トークンのテキスト。string スカラーとして返されます。 |
DocumentNumber | トークンが属する文書のインデックス。正の整数として返されます。 |
SentenceNumber | 文書に含まれるトークンの文番号。正の整数として返されます。これらの詳細が欠落している場合は、まず addSentenceDetails 関数を使用して documents に文の詳細を追加します。 |
LineNumber | 文書に含まれるトークンの行番号。正の整数として返されます。 |
Type | トークンのタイプ。次のいずれかのタイプとして返されます。
これらの詳細が欠落している場合は、まず |
Language | トークンの言語。次のいずれかの言語として返されます。
これらの言語の詳細によって、関数 これらの詳細が欠落している場合は、まず Text Analytics Toolbox™ での言語サポートの詳細については、言語に関する考慮事項を参照してください。 |
PartOfSpeech | 品詞タグ。次のいずれかのタグとして返されます。
これらの詳細が欠落している場合は、まず |
Entity | エンティティ タグ。次のいずれかのタグとして指定します。
これらの詳細が欠落している場合は、まず |
Lemma | レンマの形式。これらの詳細が欠落している場合は、まず |
Head | 文法上の依存関係の主辞。このトークンが修飾するトークンのインデックスとして指定します。これらの詳細が欠落している場合は、まず addDependencyDetails 関数を使用して documents に文法上の依存関係の詳細を追加します。 |
Dependency | 文法上の依存関係のタイプ。次のいずれかのタグとして指定します。 ここにリストされている依存関係タイプはサブセットにすぎません。サブタイプを含む依存関係タイプの完全なリストについては、[1]を参照してください。
これらの詳細が欠落している場合は、まず |
参照
[1] Universal Dependency Relations https://universaldependencies.org/u/dep/index.html.
バージョン履歴
R2018a で導入R2018b 以降、tokenizedDocument は絵文字を検出し、関数 tokenDetails はこれらのトークンをタイプ "emoji" で報告します。これにより、絵文字を含むテキストの解析が容易になります。
R2018a では、tokenDetails は絵文字をタイプ "other" で報告します。タイプが "emoji" または "other" のトークンのインデックスを検出するには、インデックス idx = tdetails.Type == "emoji" | tdetails.Type == "other" を使用します。ここで、tdetails はトークンの詳細の table です。
MATLAB Command
You clicked a link that corresponds to this MATLAB command:
Run the command by entering it in the MATLAB Command Window. Web browsers do not support MATLAB commands.
Web サイトの選択
Web サイトを選択すると、翻訳されたコンテンツにアクセスし、地域のイベントやサービスを確認できます。現在の位置情報に基づき、次のサイトの選択を推奨します:
また、以下のリストから Web サイトを選択することもできます。
最適なサイトパフォーマンスの取得方法
中国のサイト (中国語または英語) を選択することで、最適なサイトパフォーマンスが得られます。その他の国の MathWorks のサイトは、お客様の地域からのアクセスが最適化されていません。
南北アメリカ
- América Latina (Español)
- Canada (English)
- United States (English)
ヨーロッパ
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)