Main Content

ビッグ データの処理

分散配列、tall 配列、データ ストアまたは mapreduce を使用して、Spark® クラスターおよび Hadoop® クラスター上でビッグ データセットを並列解析する

Parallel Computing Toolbox™ を使用すると、大規模な配列を複数の MATLAB® ワーカーにわたり並列に分散できるため、クラスターの結合メモリを使用するビッグデータ アプリケーションを実行することができます。配列全体は単一のエンティティとして処理されますが、ワーカーは配列の自己担当部分のみを処理し、必要に応じて自動的にワーカー間でデータを転送します。Parallel Computing Toolbox では、MATLAB® tall 配列と datastore の計算も並列実行できるため、クラスターのメモリに収まらないビッグ データセットを解析できます。MATLAB Parallel Server™ を使用すると、Spark 対応 Hadoop クラスター上で tall 配列および datastore の計算を並列実行できます。そうすることで、膨大なデータ計算の実行時間が大幅に短縮されます。

  • 分散配列
    分散配列と同時実行を使用したビッグ データセットの並列解析
  • tall 配列および mapreduce
    MATLAB の tall 配列とデータ ストア、または mapreduce を Spark クラスター、Hadoop クラスターおよび並列プールで使用して、ビッグ データセットを並列解析する。

注目の例