テキスト解析用のデータ セット
このページでは、テキスト解析アプリケーションを始めるために使用できるさまざまなデータ セットのリストを提供します。
データ セット | 説明 | タスク |
---|---|---|
工場レポート
| 工場レポート データ セットは、さまざまな属性 (変数 ファイル filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキスト データの分類 (Deep Learning Toolbox)を参照してください。 | テキスト分類、トピック モデリング |
シェイクスピアのソネット集
| ファイル ファイル filename = "sonnets.txt";
textData = extractFileText(filename);
ソネット集は 2 つの空白文字でインデントされ、2 つの改行文字で区切られています。 textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); このデータを深層学習用に処理する方法を示す例については、深層学習を使用したテキストの生成 (Deep Learning Toolbox)を参照してください。 | トピック モデリング、テキスト生成 |
ArXiv メタデータ
| ArXiv API はhttps://arxiv.orgに提出された科学分野の電子出版物のメタデータ (要旨や主題など) へのアクセスを提供します。詳細については、https://arxiv.org/help/apiを参照してください。 arXiv API を使用して、数学論文から概要とカテゴリ ラベルのセットをインポートします。 url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); 返された XML コードを解析してさらに多くのレコードをインポートする方法を示す例については、Multilabel Text Classification Using Deep Learningを参照してください。 | テキスト分類、トピック モデリング |
Project Gutenberg の書籍
| Project Gutenberg から数多くの書籍をダウンロードできます。たとえば、関数 url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url); HTML コードでは、 tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector); 関数 textData = extractHTMLText(subtrees);
textData(textData == "") = []; このデータを深層学習用に処理する方法を示す例については、深層学習を使用した単語単位のテキスト生成を参照してください。 | トピック モデリング、テキスト生成 |
Weekend アップデート
| ファイル 関数 filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; このデータを処理する方法を示す例については、テキスト内のセンチメントの分析を参照してください。 | センチメント分析 |
ローマ数字
| CSV ファイル CSV ファイル filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); このデータを深層学習用に処理する方法を示す例については、Sequence-to-Sequence Translation Using Attentionを参照してください。 | sequence-to-sequence 変換 |
財務レポート
| 証券取引委員会 (SEC) は、Electronic Data Gathering, Analysis, and Retrieval (EDGAR) API を介した財務レポートへのアクセスを許可しています。詳細については、https://www.sec.gov/os/accessing-edgar-dataを参照してください。 このデータをダウンロードするには、Generate Domain Specific Sentiment Lexiconの例にサポート ファイルとして添付されている関数 year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); このデータを処理する方法を示す例については、Generate Domain Specific Sentiment Lexiconを参照してください。 | センチメント分析 |