Main Content

Statistics and Machine Learning Toolbox のサンプル データ セット

Statistics and Machine Learning Toolbox™ には、ファイル形式やサイズが異なるさまざまなデータ セットが含まれています。これらのデータ セットは、ソフトウェアの機能を実証するドキュメンテーションでの例に使用されます。このトピックは利用可能なデータ セットの一部をまとめて説明したものであり、すべてを網羅したリストではありません。

製品インストールで利用可能なデータ セット

次のリストは、Statistics and Machine Learning Toolbox をインストールすると利用できるデータ セットについて説明したものです。ファイルをワークスペースに読み込んだ後に入力できる whos コマンドの出力を「File Contents」列に表示しています。

ファイル名説明読み込み方法ファイルの内容
acetylene.mat

相関予測子をもつ化学反応データ

load acetylene.mat

  Name              Size             Bytes  Class     Attributes

  Description      16x105             3360  char                
  x1               16x1                128  double              
  x2               16x1                128  double              
  x3               16x1                128  double              
  y                16x1                128  double              
詳細については、変数 Description を参照してください。

carbig.mat

1970 年から 1982 年までの自動車の測定値

load carbig.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      406x1              3248  double              
  Cylinders         406x1              3248  double              
  Displacement      406x1              3248  double              
  Horsepower        406x1              3248  double              
  MPG               406x1              3248  double              
  Mfg               406x13            10556  char                
  Model             406x36            29232  char                
  Model_Year        406x1              3248  double              
  Origin            406x7              5684  char                
  Weight            406x1              3248  double              
  cyl4              406x5              4060  char                
  org               406x7              5684  char                
  when              406x5              4060  char                

carsmall.mat

1970 年、1976 年、および 1982 年の自動車の測定値を含む carbig.mat のサブセット

load carsmall.mat

  Name                Size            Bytes  Class     Attributes

  Acceleration      100x1               800  double              
  Cylinders         100x1               800  double              
  Displacement      100x1               800  double              
  Horsepower        100x1               800  double              
  MPG               100x1               800  double              
  Mfg               100x13             2600  char                
  Model             100x33             6600  char                
  Model_Year        100x1               800  double              
  Origin            100x7              1400  char                
  Weight            100x1               800  double              

census1994.mat

UCI Machine Learning Repository の米国勢調査局人口統計データ

load census1994.mat

  Name                 Size              Bytes  Class    Attributes

  Description         20x74               2960  char               
  adultdata        32561x15            1872566  table              
  adulttest        16281x15             944466  table              
詳細については、変数 Description を参照してください。

cereal.mat

朝食シリアルの成分

load cereal.mat

  Name            Size            Bytes  Class     Attributes

  Calories       77x1               616  double              
  Carbo          77x1               616  double              
  Cups           77x1               616  double              
  Fat            77x1               616  double              
  Fiber          77x1               616  double              
  Mfg            77x1               154  char                
  Name           77x1             10288  cell                
  Potass         77x1               616  double              
  Protein        77x1               616  double              
  Shelf          77x1               616  double              
  Sodium         77x1               616  double              
  Sugars         77x1               616  double              
  Type           77x1               616  double              
  Variables      15x2              4134  cell                
  Vitamins       77x1               616  double              
  Weight         77x1               616  double              

cities.mat

米国大都市圏の生活満足度評価

load cities.mat

  Name              Size            Bytes  Class     Attributes

  categories        9x14              252  char                
  names           329x43            28294  char                
  ratings         329x9             23688  double              

discrim.mat

判別分析のための cities.mat のバージョン

load discrim.mat

  Name              Size            Bytes  Class     Attributes

  big              26x43             2236  char                
  categories        9x14              252  char                
  group           329x1              2632  double              
  idx              26x1               208  double              
  names           329x43            28294  char                
  ratings         329x9             23688  double              

examgrades.mat

0 ~ 100 のテストの採点

load examgrades.mat

  Name          Size            Bytes  Class     Attributes

  grades      120x5              4800  double              

fisheriris.mat または fisheriris.csv

フィッシャーのアヤメの分析データ (1936 年)

load fisheriris.mat

  Name           Size            Bytes  Class     Attributes

  meas         150x4              4800  double              
  species      150x1             18100  cell                

fisheriris = readtable("fisheriris.csv");

  Name              Size            Bytes  Class    Attributes

  fisheriris      150x5             24805  table              

flu.mat

Google の「インフル トレンド」による米国のさまざまな地域の ILI (インフルエンザ様疾患) 罹患率の推定と、定点機関の報告に基づいて CDC が重み付けした ILI 罹患率

load flu.mat

  Name              Size             Bytes  Class      Attributes

  Description       1x306              612  char                 
  flu              52x11             14640  dataset              
詳細については、変数 Description を参照してください。

gas.mat

1993 年のマサチューセッツ州のガソリン価格

load gas.mat

  Name         Size            Bytes  Class     Attributes

  price1      20x1               160  double              
  price2      20x1               160  double              

hald.mat

セメントの発熱と混合成分

load hald.mat

  Name              Size            Bytes  Class     Attributes

  Description      22x58             2552  char                
  hald             13x5               520  double              
  heat             13x1               104  double              
  ingredients      13x4               416  double              
詳細については、変数 Description を参照してください。

hogg.mat

出荷別の牛乳内のバクテリア数

load hogg.mat

  Name      Size            Bytes  Class     Attributes

  hogg      6x5               240  double              
  x1        6x1                48  double              
  x2        6x1                48  double              
  x3        6x1                48  double              
  x4        6x1                48  double              
  x5        6x1                48  double              

hospital.xls または hospital.mat

病院のデータのシミュレーション

hospital = readtable("hospital.xls");

  Name            Size            Bytes  Class    Attributes

  hospital      100x12            44579  table              

load hospital.mat

  Name               Size            Bytes  Class      Attributes

  Description        1x23               46  char                 
  hospital         100x7             43784  dataset              
詳細については、変数 Description を参照してください。

imports-85.mat

UCI Machine Learning Repository の 1985 年の自動車輸入データベース

load imports-85.mat

  Name               Size            Bytes  Class     Attributes

  Description        9x79             1422  char                
  X                205x26            42640  double              
詳細については、変数 Description を参照してください。

indomethacin.mat

被験者 6 人の 8 時間の薬物インドメタシン血中濃度

load indomethacin.mat

  Name                Size            Bytes  Class     Attributes

  Description        14x50             1400  char                
  concentration      66x1               528  double              
  subject            66x1               528  double              
  time               66x1               528  double              
詳細については、変数 Description を参照してください。

ionosphere.mat

UCI Machine Learning Repository の電離層データ セット

load ionosphere.mat

  Name               Size            Bytes  Class     Attributes

  Description        5x79              790  char                
  X                351x34            95472  double              
  Y                351x1             37206  cell                
詳細については、変数 Description を参照してください。

kmeansdata.mat

4 次元にクラスター化したデータ

load kmeansdata.mat

  Name        Size            Bytes  Class     Attributes

  X         560x4             17920  double              

lawdata.mat

15 のロースクールの GPA と LSAT のスコア

load lawdata.mat

  Name       Size            Bytes  Class     Attributes

  gpa       15x1               120  double              
  lsat      15x1               120  double              

mileage.mat

2 社の 3 モデルの車両のマイレージ データ

load mileage.mat

  Name         Size            Bytes  Class     Attributes

  mileage      6x3               144  double              

moore.mat

5 つの予測子に基づく生物化学的酸素要求量

load moore.mat

  Name        Size            Bytes  Class     Attributes

  moore      20x6               960  double              

morse.mat

非符号器によるモールス符号の区別の認識

load morse.mat

  Name                  Size             Bytes  Class     Attributes

  Y0                   36x8               2304  double              
  dissimilarities       1x630             5040  double              
  morseChars           36x2               7824  cell                

parts.mat

36 個の円形パーツの寸法のずれ

load parts.mat

  Name         Size            Bytes  Class     Attributes

  runout      36x4              1152  double              

polydata.mat

多項式近似用の標本データ

load polydata.mat

  Name      Size             Bytes  Class     Attributes

  x         1x43               344  double              
  x1        1x101              808  double              
  y         1x43               344  double              
  y1        1x101              808  double              

popcorn.mat

タイプ別とブランド別によるポップコーン生産量

load popcorn.mat

  Name         Size            Bytes  Class     Attributes

  popcorn      6x3               144  double              

reaction.mat

Hougen-Watson モデルのための反応力学

load reaction.mat

  Name            Size            Bytes  Class     Attributes

  beta            5x1                40  double              
  model           1x6                12  char                
  rate           13x1               104  double              
  reactants      13x3               312  double              
  xn              3x10               60  char                
  yn              1x13               26  char                

repeatedmeas.mat

反復測定のシミュレーション データ

load repeatedmeas.mat

  Name          Size            Bytes  Class    Attributes

  between      30x12             6415  table              
  within        8x2              1863  table              

stockreturns.mat

株式収益のシミュレーション

load stockreturns.mat

  Name          Size            Bytes  Class     Attributes

  stocks      100x10             8000  double              

特定の例で利用可能なデータ セット

次のリストは、Statistics and Machine Learning Toolbox の特定の例を開くときに利用できるデータ セットの一部について説明したものです。すべてを網羅したリストではありません。ファイルをワークスペースに読み込んだ後に入力できる whos コマンドの出力を「File Contents」列に表示しています。

ファイル名説明読み込み方法ファイルの内容
arrhythmia.mat

心不整脈の有無を示す応答変数と患者情報

openExample("arrhythmia.mat")
load arrhythmia.mat

  Name               Size               Bytes  Class     Attributes

  Description        8x69                1104  char                
  VarNames           1x279              41570  cell                
  X                452x279            1008864  double              
  Y                452x1                 3616  double              
詳細については、変数 Description を参照してください。

batterysmall.mat

リチウムイオン バッテリーのセンサー データ (電圧、電流、および温度) と SOC ([1]のデータのサブセット)

openExample("batterysmall.mat")
load batterysmall.mat

  Name                   Size              Bytes  Class     Attributes

  dataLarge              1x1             1886400  struct              
  testDataSmall       1319x6               65361  table               
  trainDataSmall      6773x6              327153  table               

CreditRating_Historical.dat

法人顧客リストの財務比率、業種、および信用格付け

openExample("CreditRating_Historical.dat")
creditrating = readtable("CreditRating_Historical.dat");

  Name                 Size             Bytes  Class    Attributes

  creditrating      3932x8             649029  table              

humanactivity.mat

座る、立つ、歩く、走る、踊る、という人の 5 種類の動作に対する行動認識データ

openExample("humanactivity.mat")
load humanactivity.mat

  Name                 Size               Bytes  Class     Attributes

  Description         29x1                 5918  string              
  actid            24075x1               192600  double              
  actnames             1x5                  592  cell                
  feat             24075x60            11556000  double              
  featlabels          60x1                 8292  cell                
詳細については、変数 Description を参照してください。

nlpdata.mat

MathWorks® ドキュメンテーションから抽出した自然言語処理データ

openExample("nlpdata.mat")
load nlpdata.mat

  Name                 Size                  Bytes  Class          Attributes

  Description         26x68                   3536  char                     
  X                31572x34023            36716304  double         sparse    
  Y                31572x1                   33094  categorical              
  corpus           31572x1                 6149252  cell                     
  dictionary       34023x1                 4137912  cell                     
詳細については、変数 Description を参照してください。

NYCHousing2015.mat

2015 年のニューヨーク市における不動産の売上に関する情報

openExample("NYCHousing2015.mat")
load NYCHousing2015.mat

  Name                    Size               Bytes  Class    Attributes

  NYCHousing2015      91446x10            32103067  table              

ovariancancer.mat

[2][3]で与えられる、卵巣癌についての 4000 個の予測子に基づいてグループ分けされた観測値

openExample("ovariancancer.mat")
load ovariancancer.mat

  Name        Size                Bytes  Class     Attributes

  grp       216x1                 25056  cell                
  obs       216x4000            3456000  single              

spectra.mat

60 件のガソリン標本の NIR スペクトルとオクタン価

openExample("spectra.mat")
load spectra.mat

  Name              Size              Bytes  Class      Attributes

  Description      11x72               1584  char                 
  NIR              60x401            192480  double               
  octane           60x1                 480  double               
  spectra          60x2              195660  dataset              
詳細については、変数 Description を参照してください。

参照

[1] Kollmeyer, Phillip, Carlos Vidal, Mina Naguib, and Michael Skells. "LG 18650HG2 Li-ion Battery Data and Example Deep Neural Network xEV SOC Estimator Script." Mendeley 3 (March 2020). https://doi.org/10.17632/CP3473X7XV.3.

[2] Conrads, Thomas P., Vincent A. Fusaro, Sally Ross, Don Johann, Vinodh Rajapakse, Ben A. Hitt, Seth M. Steinberg, et al. "High-Resolution Serum Proteomic Features for Ovarian Cancer Detection." Endocrine-Related Cancer 11 (2004): 163–78.

[3] Petricoin, Emanuel F., Ali M. Ardekani, Ben A. Hitt, Peter J. Levine, Vincent A. Fusaro, Seth M. Steinberg, Gordon B. Mills, et al. “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” The Lancet 359, no. 9306 (February 2002): 572–77.

関連するトピック