ビッグデータの処理

分散配列、tall 配列、データストアまたは mapreduce を使用して、Spark^® クラスターおよび Hadoop^® クラスター上でビッグデータセットを並列解析する

Parallel Computing Toolbox™ を使用すると、大規模な配列を複数の MATLAB^® ワーカーにわたり並列に分散できるため、クラスターの結合メモリを使用するビッグデータアプリケーションを実行することができます。配列全体は単一のエンティティとして処理されますが、ワーカーは配列の自己担当部分のみを処理し、必要に応じて自動的にワーカー間でデータを転送します。Parallel Computing Toolbox では、MATLAB tall 配列と datastore の計算も並列実行できるため、クラスターのメモリに収まらないビッグデータセットを解析できます。MATLAB Parallel Server™ を使用すると、Spark 対応 Hadoop クラスター上で tall 配列および datastore の計算を並列実行できます。そうすることで、膨大なデータ計算の実行時間が大幅に短縮されます。

注目の例

クラウドでのビッグデータの処理

この例では、クラウド上の大規模データセットにアクセスし、ビッグデータ向けの MATLAB® の機能を使用してクラウドクラスター上で処理する方法を説明します。

ライブスクリプトを開く

Use Parallel Computing to Optimize Big Data Set for Analysis

Optimize data preprocessing for analysis using parallel computing.

R2024a 以降
ライブスクリプトを開く

ビッグ データの処理

カテゴリ

注目の例

クラウドでのビッグデータの処理

Use Parallel Computing to Optimize Big Data Set for Analysis

ビッグデータの処理