partition

データストアを分割する

ページ内をすべて折りたたむ

構文

subds = partition(ds,n,index)

subds = partition(ds,'Files',index)

subds = partition(ds,'Files',filename)

説明

subds = partition(ds,n,index) は、n で指定された個数にデータストア ds を分割し、インデックス index に対応する区画を返します。

例

subds = partition(ds,'Files',index) は、データストアをファイル別に分割し、Files プロパティのインデックス index が示すファイルに対応する区画を返します。

例

subds = partition(ds,'Files',filename) は、データストアをファイル別に分割し、filename で指定されたファイルに対応する区画を返します。

例

すべて折りたたむ

データストアを指定した数の部分に分割

ファイルの大規模な集合のデータストアを作成します。この例では、サンプルファイル airlinesmall.csv の 10 個のコピーを使用します。表形式データの欠損フィールドを処理するには、名前と値のペア TreatAsMissing と MissingValue を指定します。

files = repmat({'airlinesmall.csv'},1,10);
ds = tabularTextDatastore(files,...
                 'TreatAsMissing','NA','MissingValue',0);

データストアを 3 つの部分に分割し、最初の区画を返します。関数 partition は、データストア ds から最初の約 1/3 のデータを返します。

subds = partition(ds,3,1);

データストアの Files プロパティには、データストア内のファイルのリストが格納されます。データストア ds の Files プロパティおよび分割されたデータストア subds にあるファイルの数をチェックします。データストア ds には 10 個のファイル、区画 subds には最初の 4 つのファイルが格納されています。

length(ds.Files)

ans = 
10

length(subds.Files)

ans = 
4

データストアを既定の数の部分に分割

ライブスクリプトを開く

関数 mapreduce の出力ファイルであるサンプルファイル mapredout.mat からデータストアを作成します。

ds = datastore('mapredout.mat');

ds の既定の分割数を取得します。

n = numpartitions(ds);

データストアを既定の数に分割し、最初の分割部分に対応するデータストアを返します。

subds = partition(ds,n,1);

subds 内のデータを読み取ります。

while hasdata(subds)
	data = read(subds);
end

データストアをファイル別に分割

イメージファイルを 3 つ含むデータストアを作成します。

ds = imageDatastore({'street1.jpg','peppers.png','corn.tif'})

ds = 

  ImageDatastore with properties:

       Files: {
              ' ...\folder1\street1.jpg';
              ' ...\folder1\peppers.png';
              ' ...\folder1\corn.tif'
              }
    ReadSize: 1
      Labels: {}
     ReadFcn: @readDatastoreImage

データストアをファイル別に分割し、2 番目のファイルに対応する部分を返します。

subds = partition(ds,'Files',2)

subds = 

  ImageDatastore with properties:

       Files: {
              ' ...\folder1\peppers.png'
              }
    ReadSize: 1
      Labels: {}
     ReadFcn: @readDatastoreImage

subds にはファイルが 1 つあります。

並列でのデータ分割

関数 mapreduce の出力ファイルであるサンプルファイル mapredout.mat からデータストアを作成します。

ds = datastore('mapredout.mat');

並列プール内の 3 個のワーカーに対して、データストアを 3 つの部分に分割します。

numWorkers = 3;
p = parpool('local',numWorkers);
n = numpartitions(ds,p);

parfor ii=1:n
    subds = partition(ds,n,ii);
    while hasdata(subds)
        data = read(subds);
    end
end

データ粒度の比較

ライブスクリプトを開く

粒度の粗い分割と粒度の細かいサブセットを比較します。

ビデオファイル xylophone.mp4 のすべてのフレームを読み取り、反復処理するための ArrayDatastore オブジェクトを作成します。結果のオブジェクトには 141 個のフレームがあります。

v = VideoReader("xylophone.mp4");
allFrames = read(v);
arrds = arrayDatastore(allFrames,IterationDimension=4,OutputType="cell",ReadSize=4);

隣接するフレームの特定のセットを抽出するために、arrds の粒度の粗い分割を 16 個作成します。9 個のフレームをもつ 2 番目の分割を抽出します。

partds = partition(arrds,16,2);
imshow(imtile(partds.readall()))

Figure contains an axes object. The hidden axes object contains an object of type image.

粒度の細かいサブセットを使用して、指定されたインデックスにおける 2 個の隣接しないフレームを arrds から抽出します。

subds = subset(arrds,[67 79]);
imshow(imtile(subds.readall()))

Figure contains an axes object. The hidden axes object contains an object of type image.

入力引数

すべて折りたたむ

`ds` — 入力データストア
データストア

入力データストア。関数 datastore を使用して、データから datastore オブジェクトを作成できます。

`n` — 分割数
正の整数

分割数。正の整数として指定します。

指定した分割数が、データストア内のファイル数の因数でない場合、partition は残りの観測値を既存の区画に、最初の区画から順番に配置します。

追加の観測値がある既存のパーティションの数は、データストア内のファイル数を区画数で除算したときの剰余と等しくなります。たとえば、データストアオブジェクトに 23 個のファイルがあり、3 つの部分に分割する場合、partition により作成される最初の 2 つの区画には 8 個のファイル、最後の区画には 7 個のファイルが含まれます。

例: 3

データ型: double

`index` — インデックス
正の整数

インデックス。正の整数として指定します。

例: 1

データ型: double

`filename` — ファイル名
文字ベクトル | string スカラー

ファイル名。文字ベクトルまたは string スカラーとして指定します。

filename の値は、データストアの Files プロパティに含まれるファイル名と完全に一致しなければなりません。ファイル名を完全に一致させるには、ds.Files{N} を使用して filename を指定します。ここで N は Files プロパティ内のファイルのインデックスです。たとえば、ds.Files{3} はデータストア ds 内の 3 番目のファイルを指定します。

例: ds.Files{3}

例: 'file1.csv'

例: '../dir/data/file1.csv'

例: 'hdfs://myserver:7867/data/file1.txt'

データ型: char

出力引数

すべて折りたたむ

`subds` — 出力データストア
データストア

出力データストア。出力データストアは、入力データストア ds と同じ種類です。

拡張機能

すべて展開する

スレッドベースの環境
MATLAB® の `backgroundPool` を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の `ThreadPool` を使用してコードを高速化します。

partition 関数はスレッドベースの環境をサポートしますが、次の使用上の注意および制限があります。

スレッドベースの環境では、次のデータストアでのみ partition を使用できます。
- ImageDatastore オブジェクト
- combine または transform を使用して ImageDatastore オブジェクトから作成する CombinedDatastore、SequentialDatastore、または TransformedDatastore オブジェクト
Parallel Computing Toolbox™ がある場合は、他のデータストアで partition を使用できます。これを行うには、backgroundPool または ThreadPool を使用する代わりに、プロセスベースの並列プールを使用して関数を実行します (ProcessPool または ClusterPool を使用します)。

詳細については、スレッドベースの環境での MATLAB 関数の実行を参照してください。

バージョン履歴

R2015a で導入

参考

datastore | numpartitions | subset

トピック

データストアの並列分割 (Parallel Computing Toolbox)

partition

構文

説明

例

データストアを指定した数の部分に分割

データストアを既定の数の部分に分割

データストアをファイル別に分割

並列でのデータ分割

データ粒度の比較

入力引数

ds — 入力データストア データストア

n — 分割数 正の整数

index — インデックス 正の整数

filename — ファイル名 文字ベクトル | string スカラー

出力引数

subds — 出力データストア データストア

拡張機能

スレッドベースの環境 MATLAB® の backgroundPool を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の ThreadPool を使用してコードを高速化します。

バージョン履歴

参考

トピック

`ds` — 入力データストア
データストア

`n` — 分割数
正の整数

`index` — インデックス
正の整数

`filename` — ファイル名
文字ベクトル | string スカラー

`subds` — 出力データストア
データストア

スレッドベースの環境
MATLAB® の `backgroundPool` を使用してバックグラウンドでコードを実行するか、Parallel Computing Toolbox™ の `ThreadPool` を使用してコードを高速化します。