ビッグ データの処理
分散配列、tall 配列、データ ストアまたは
mapreduce
を使用して、Spark® クラスターおよび Hadoop® クラスター上でビッグ データセットを並列解析するParallel Computing Toolbox™ を使用すると、大規模な配列を複数の MATLAB® ワーカーにわたり並列に分散できるため、クラスターの結合メモリを使用するビッグデータ アプリケーションを実行することができます。配列全体は単一のエンティティとして処理されますが、ワーカーは配列の自己担当部分のみを処理し、必要に応じて自動的にワーカー間でデータを転送します。Parallel Computing Toolbox では、MATLAB tall 配列と datastore
の計算も並列実行できるため、クラスターのメモリに収まらないビッグ データセットを解析できます。MATLAB Parallel Server™ を使用すると、Spark 対応 Hadoop クラスター上で tall 配列および datastore
の計算を並列実行できます。そうすることで、膨大なデータ計算の実行時間が大幅に短縮されます。
カテゴリ
- 分散配列
分散配列と同時実行を使用したビッグ データセットの並列解析
- tall 配列および mapreduce
MATLAB の tall 配列とデータ ストア、またはmapreduce
を Spark クラスター、Hadoop クラスター、および並列プールで使用して、ビッグ データ セットを並列解析する