並列ワーカーへの配列の分散

分散配列を使用したワーカー間でのデータの分割

データがメモリに収まるかどうかに応じて、次の方法のいずれかを選択します。

データが現在ローカルマシンのメモリにある場合は、関数 distributed を使用して、既存の配列をクライアントワークスペースから並列プールのワーカーに分散することができます。このオプションは、repmat のように配列のサイズを大幅に増加させる操作のテストや、その操作の実行前に有用です。
データがローカルマシンのメモリに収まらないが、クラスターのメモリには収まる場合、datastore を関数 distributed と併用して、並列プールのワーカーのメモリにデータを読み込むことができます。
データがクラスターのメモリに収まらない場合、datastore を tall 配列と併用してデータをチャンクに分割し、処理することができます。tall 配列およびデータストアを使用するビッグデータのワークフローも参照してください。

`datastore` を使用した分散配列の並列読み込み

データがローカルマシンのメモリに収まらないが、クラスターのメモリには収まる場合、datastore を distributed 関数と併用して分散配列を作成し、ワーカー間でデータを分割できます。

次の例では、datastore を使用して分散配列を作成し、読み込む方法を説明します。

大規模なエネルギーグリッドの変電所とフィーダーのイベントで構成される Parquet ファイルを使用して、データストアを作成します。このデータセットは小さすぎるため、ワーカー間でデータが均等に分割されません。大規模なデータセットをシミュレーションするため、repmatを使用してデータストアのサイズを人為的に増加します。

files = repmat("energyGridEvents.parquet",40,1);
ds = parquetDatastore(files);

例の変数を選択します。

ds.SelectedVariableNames = ["Severity","CustomersAffected"];

データストアを並列で読み取ることにより分散テーブルを作成します。ワーカーごとに 1 パーティションとなるように、データストアを分割します。これにより、各ワーカーは対応するパーティションからすべてのデータを読み取ります。ファイルは、ワーカーがアクセスできる共有場所になければなりません。

dt = distributed(ds);

分散テーブルに関する概要情報を表示します。

summary(dt)

dt: 7288600×2 table

Variables:

    Severity: int16
    CustomersAffected: int32

Statistics for applicable variables:

                         NumMissing     Min        Max             Mean     

    Severity                 0           1             5            2.5638  
    CustomersAffected        0           0        332051        2.0547e+04

tall table のサイズを求めます。

size(dt)

ans = 1×2

    7288600    2

dt の最初の数行を返します。

head(dt)

    Severity    CustomersAffected
    ________    _________________

       4                  0      
       1                876      
       5             115885      
       4              53753      
       2               1931      
       3              25535      
       4                  0      
       4              87741

最後に、各ワーカーが読み込んだデータ量をチェックします。

spmd
    dt
end

Worker 1: 
  
  This worker stores dt(1:1822150,:).
  
          LocalPart: [1822150×2 table]
      Codistributor: [1×1 codistributor1d]
  
Worker 2: 
  
  This worker stores dt(1822151:3644300,:).
  
          LocalPart: [1822150×2 table]
      Codistributor: [1×1 codistributor1d]
  
Worker 3: 
  
  This worker stores dt(3644301:5466450,:).
  
          LocalPart: [1822150×2 table]
      Codistributor: [1×1 codistributor1d]
  
Worker 4: 
  
  This worker stores dt(5466451:7288600,:).
  
          LocalPart: [1822150×2 table]
      Codistributor: [1×1 codistributor1d]

データはワーカーに均等に分割されています。データストアの詳細については、データストアとはを参照してください。

ビッグデータのワークフローの詳細については、並列計算の解決策の選択を参照してください。

分散配列および対話型分散配列を作成する代替方法

データがローカルマシンのメモリに収まる場合は、分散配列を使用してワーカー間にデータを分割できます。関数 distributed を使用して MATLAB^® クライアントに分散配列を作成し、開いている並列プールのワーカーにそのデータを格納します。分散配列は単一の次元内で、その次元に沿ってできるだけ均等にワーカー間に分散されます。分散配列を作成する際、分散の詳細は制御できません。

分散配列は、いくつかの方法で作成できます。

関数 distributed を使用して、既存の配列をクライアントワークスペースから並列プールのワーカーに分散する。
任意の関数 distributed を使用して、ワーカーに分散配列を直接作成する。この手法では配列があらかじめクライアントに存在している必要がないため、クライアントワークスペースのメモリ要件が少なくて済みます。関数には eye(___,'distributed') や rand(___,'distributed') などがあります。完全な一覧については、distributed オブジェクトのリファレンスページを参照してください。
spmd ステートメント内に対話型分散配列を作成し、spmd ステートメント外で分散配列としてその配列にアクセスする。この手法では、既定以外の分散スキームを使用できます。

最初の 2 つの手法では、配列の作成に spmd が関わっていませんが、この方法で作成された配列を spmd を使用して操作することができます。以下に例を示します。

クライアントワークスペースで配列を作成し、それを分散配列にします。

parpool('Processes',2) % Create pool
W = ones(6,6);
W = distributed(W); % Distribute to the workers
spmd
    T = W*2; % Calculation performed on workers, in parallel.
             % T and W are both codistributed arrays here.
end
T            % View results in client.
whos         % T and W are both distributed arrays here.
delete(gcp)  % Stop pool

別の方法として、関数 codistributed を使用できます。これにより、次元や分割など、より多くのオプションを制御できますが、多くの場合はより複雑になります。codistributed 配列は、spmd ステートメント内または通信ジョブ内のいずれかで、ワーカー自体で実行することにより作成できます。codistributed 配列の作成時に、次元や分割など、分散のあらゆる特徴を制御できます。

分散配列と対話型分散配列の関係は観点の 1 つです。対話型分散配列は、それを作成または操作するコードの実行元となるワーカーの間で分割されます。クライアントで分散配列を作成すると、spmd ステートメント内で対話型分散配列としてこの配列にアクセスできます。spmd ステートメント内で対話型分散配列を作成すると、クライアント内では分散配列としてこの配列にアクセスできます。spmd ステートメントを使用した場合のみ、同じ配列データに 2 つの異なる観点からアクセスできます。

codistributed 配列は複数の方法で作成できます。

spmd ステートメントまたは通信ジョブ内で、関数 codistributed を使用して、そのジョブを実行するワーカーに既に存在しているデータを対話型で分散する。
任意の対話型分散関数を使用して、対話型分散配列をワーカーに直接作成する。この手法では、ワーカーにあらかじめその配列が存在している必要がありません。関数には eye(___,'codistributed') や rand(___,'codistributed') などがあります。完全な一覧については、codistributed オブジェクトのリファレンスページを参照してください。
spmd ステートメント外で分散配列を作成し、同じ並列プールで実行される spmd ステートメント内でその配列に対話型分散配列としてアクセスする。

既定ではない分散スキームを使用して、spmd ステートメント内で対話型分散配列を作成します。まず、3 番目の次元に沿って 1 次元の分散を定義し、ワーカー 1 に 4 つの部分、ワーカー 2 に 12 の部分を割り当てます。続いて、ゼロからなる 3×3×16 の配列を作成します。

parpool('Processes',2) % Create pool
spmd
    codist = codistributor1d(3,[4,12]);
    Z = zeros(3,3,16,codist);
    Z = Z + spmdIndex;
end
Z  % View results in client.
   % Z is a distributed array here.
delete(gcp) % Stop pool

対話型分散配列の詳細については、対話型分散配列の取り扱いを参照してください。

参考

並列ワーカーへの配列の分散

分散配列を使用したワーカー間でのデータの分割

datastore を使用した分散配列の並列読み込み

分散配列および対話型分散配列を作成する代替方法

参考

トピック

`datastore` を使用した分散配列の並列読み込み