テキスト解析用のデータセット

このページでは、テキスト解析アプリケーションを始めるために使用できるさまざまなデータセットのリストを提供します。

データセット説明タスク

データセット	説明	タスク
工場レポート	工場レポートデータセットは、さまざまな属性 (変数 `Description` 内のプレーンテキストの説明、変数 `Category` 内のカテゴリカルラベルなど) をもつ約 500 件のレポートが含まれている table です。ファイル `"factoryReports.csv"` から工場レポートデータを読み取ります。`Description` 列と `Category` 列から、それぞれテキストデータとラベルを抽出します。 filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキストデータの分類 (Deep Learning Toolbox)を参照してください。	テキスト分類、トピックモデリング
シェイクスピアのソネット	ファイル `sonnets.txt` には、シェイクスピアのソネット全集が 1 つのテキストファイルとして格納されています。ファイル `"sonnets.txt"` からシェイクスピアのソネットのデータを読み取ります。 filename = "sonnets.txt"; textData = extractFileText(filename); ソネットは 2 つの空白文字でインデントされ、2 つの改行文字で区切られています。`replace` を使用してインデントを削除し、`split` を使用してテキストを個別のソネットに分割します。最初の 3 つの要素のメインタイトルと、各ソネットの前に現れるソネットタイトルを削除します。 textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキストの生成 (Deep Learning Toolbox)を参照してください。	トピックモデリング、テキスト生成
arXiv メタデータ	arXiv API はhttps://arxiv.orgに提出された科学分野の電子出版物のメタデータ (要旨や主題など) へのアクセスを提供します。詳細については、https://arxiv.org/help/apiを参照してください。 arXiv API を使用して、数学論文から概要とカテゴリラベルのセットをインポートします。 url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); 返された XML コードを解析してさらに多くのレコードをインポートする方法を示す例については、深層学習を使用した複数ラベルをもつテキストの分類を参照してください。	テキスト分類、トピックモデリング
Project Gutenberg の書籍	Project Gutenberg から数多くの書籍をダウンロードできます。たとえば、関数 `webread` を使用して、https://www.gutenberg.org/files/11/11-h/11-h.htm からルイスキャロルの『不思議の国のアリス』のテキストをダウンロードします。 url = "https://www.gutenberg.org/files/11/11-h/11-h.htm"; code = webread(url); HTML コードには、`<p>` (段落) 要素の中に関連テキストが含まれています。関数 `htmlTree` を使用して HTML コードを解析し、要素名 `"p"` を持つすべての要素を検索して、関連テキストを抽出します。 tree = htmlTree(code); selector = "p"; subtrees = findElement(tree,selector); 関数 `extractHTMLText` を使用して HTML サブツリーからテキストデータを抽出し、空の要素を削除します。 textData = extractHTMLText(subtrees); textData(textData == "") = []; このデータを深層学習用に処理する方法を示す例については、深層学習を使用した単語単位のテキスト生成を参照してください。	トピックモデリング、テキスト生成
週末のアップデート	ファイル `weekendUpdates.xlsx` には、"#weekend" と "#vacation" にハッシュタグが含まれている、ソーシャルメディアのステータス更新の例が格納されています。関数 `readtable` を使用してファイル `weekendUpdates.xlsx` からテキストデータを取得し、変数 `TextData` からテキストデータを抽出します。 filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; このデータを処理する方法を示す例については、テキスト内のセンチメントの分析を参照してください。	センチメント分析
ローマ数字	CSV ファイル `"romanNumerals.csv"` には、1 ～ 1000 の 10 進数が最初の列に格納され、それに対応するローマ数字が 2 番目の列に格納されています。 CSV ファイル `"romanNumerals.csv"` から 10 進数とローマ数字のペアを読み込みます。 filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); このデータを深層学習用に処理する方法を示す例については、アテンションを使用した sequence-to-sequence 変換を参照してください。	sequence-to-sequence 変換
財務レポート	証券取引委員会 (SEC) は、Electronic Data Gathering, Analysis, and Retrieval (EDGAR) API を介した財務レポートへのアクセスを許可しています。詳細については、https://www.sec.gov/search-filings/edgar-search-assistance/accessing-edgar-dataを参照してください。このデータをダウンロードするには、Generate Domain Specific Sentiment Lexiconの例にサポートファイルとして添付されている関数 `financeReports` を使用します。この関数にアクセスするには、例をライブスクリプトとして開きます。 year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); このデータを処理する方法を示す例については、Generate Domain Specific Sentiment Lexiconを参照してください。	センチメント分析

工場レポート

Word cloud illustrating the Factory Reports data set.

工場レポートデータセットは、さまざまな属性 (変数 Description 内のプレーンテキストの説明、変数 Category 内のカテゴリカルラベルなど) をもつ約 500 件のレポートが含まれている table です。

ファイル "factoryReports.csv" から工場レポートデータを読み取ります。Description 列と Category 列から、それぞれテキストデータとラベルを抽出します。

filename = "factoryReports.csv";
data = readtable(filename,'TextType','string');

textData = data.Description;
labels = data.Category;

このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキストデータの分類 (Deep Learning Toolbox)を参照してください。

テキスト分類、トピックモデリング

シェイクスピアのソネット

Word cloud illustrating the Shakespeare's Sonnets data set.

ファイル sonnets.txt には、シェイクスピアのソネット全集が 1 つのテキストファイルとして格納されています。

ファイル "sonnets.txt" からシェイクスピアのソネットのデータを読み取ります。

filename = "sonnets.txt";
textData = extractFileText(filename);

ソネットは 2 つの空白文字でインデントされ、2 つの改行文字で区切られています。replace を使用してインデントを削除し、split を使用してテキストを個別のソネットに分割します。最初の 3 つの要素のメインタイトルと、各ソネットの前に現れるソネットタイトルを削除します。

textData = replace(textData,"  ","");
textData = split(textData,[newline newline]);
textData = textData(5:2:end);

このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキストの生成 (Deep Learning Toolbox)を参照してください。

トピックモデリング、テキスト生成

arXiv メタデータ

Three word clouds illustrating the ArXiv Metadata data set. The first word cloud shows words related to combinatorics. The second shows words related to Statistics Theory. The third shows words from both categories.

arXiv API はhttps://arxiv.orgに提出された科学分野の電子出版物のメタデータ (要旨や主題など) へのアクセスを提供します。詳細については、https://arxiv.org/help/apiを参照してください。

arXiv API を使用して、数学論文から概要とカテゴリラベルのセットをインポートします。

url = "https://export.arxiv.org/oai2?verb=ListRecords" + ...
    "&set=math" + ...
    "&metadataPrefix=arXiv";
options = weboptions('Timeout',160);
code = webread(url,options);

返された XML コードを解析してさらに多くのレコードをインポートする方法を示す例については、深層学習を使用した複数ラベルをもつテキストの分類を参照してください。

テキスト分類、トピックモデリング

Project Gutenberg の書籍

Word cloud illustrating the Books from Project Gutenberg data set. The word cloud shows words from "Alice's Adventures in Wonderland."

Project Gutenberg から数多くの書籍をダウンロードできます。たとえば、関数 webread を使用して、https://www.gutenberg.org/files/11/11-h/11-h.htm からルイスキャロルの『不思議の国のアリス』のテキストをダウンロードします。

url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url);

HTML コードには、<p> (段落) 要素の中に関連テキストが含まれています。関数 htmlTree を使用して HTML コードを解析し、要素名 "p" を持つすべての要素を検索して、関連テキストを抽出します。

tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);

関数 extractHTMLText を使用して HTML サブツリーからテキストデータを抽出し、空の要素を削除します。

textData = extractHTMLText(subtrees);
textData(textData == "") = [];

このデータを深層学習用に処理する方法を示す例については、深層学習を使用した単語単位のテキスト生成を参照してください。

トピックモデリング、テキスト生成

週末のアップデート

Word cloud illustrating the Weekend Updates data set.

ファイル weekendUpdates.xlsx には、"#weekend" と "#vacation" にハッシュタグが含まれている、ソーシャルメディアのステータス更新の例が格納されています。

関数 readtable を使用してファイル weekendUpdates.xlsx からテキストデータを取得し、変数 TextData からテキストデータを抽出します。

filename = "weekendUpdates.xlsx";
tbl = readtable(filename,'TextType','string');
textData = tbl.TextData;

このデータを処理する方法を示す例については、テキスト内のセンチメントの分析を参照してください。

センチメント分析

ローマ数字

Table illustrating the Roman Numerals data set. The entries show single roman digits. Each row corresponds to a multidigit roman number of varying lengths. Short rows are padded with empty gray table entries.

CSV ファイル "romanNumerals.csv" には、1 ～ 1000 の 10 進数が最初の列に格納され、それに対応するローマ数字が 2 番目の列に格納されています。

CSV ファイル "romanNumerals.csv" から 10 進数とローマ数字のペアを読み込みます。

filename = fullfile("romanNumerals.csv");

options = detectImportOptions(filename, ...
    'TextType','string', ...
    'ReadVariableNames',false);
options.VariableNames = ["Source" "Target"];
options.VariableTypes = ["string" "string"];

data = readtable(filename,options);

このデータを深層学習用に処理する方法を示す例については、アテンションを使用した sequence-to-sequence 変換を参照してください。

sequence-to-sequence 変換

財務レポート

Word cloud illustrating the Finance Reports data set.

証券取引委員会 (SEC) は、Electronic Data Gathering, Analysis, and Retrieval (EDGAR) API を介した財務レポートへのアクセスを許可しています。詳細については、https://www.sec.gov/search-filings/edgar-search-assistance/accessing-edgar-dataを参照してください。

このデータをダウンロードするには、Generate Domain Specific Sentiment Lexiconの例にサポートファイルとして添付されている関数 financeReports を使用します。この関数にアクセスするには、例をライブスクリプトとして開きます。

year = 2019;
qtr = 4;
maxLength = 2e6;
textData = financeReports(year,qtr,maxLength);

このデータを処理する方法を示す例については、Generate Domain Specific Sentiment Lexiconを参照してください。

センチメント分析

テキスト解析用のデータ セット

参考

トピック

テキスト解析用のデータセット