tall 配列および `mapreduce`

MATLAB^® の tall 配列とデータストア、または mapreduce を Spark™ クラスター、Hadoop^® クラスター、および並列プールで使用して、ビッグデータセットを並列解析する

Parallel Computing Toolbox™ を使用すると、デスクトップ上の並列プールを使って tall 配列の式を並列で評価できます。tall 配列を使用すると、マシンのメモリに収まらないビッグデータアプリケーションを実行できます。また、Parallel Computing Toolbox を使用して、MATLAB Parallel Server™ クラスター上で実行される並列プールに接続することで、tall 配列の処理をスケールアップすることもできます。あるいは、MATLAB Parallel Server を実行する Spark 対応 Hadoop クラスターを使用できます。詳細については、tall 配列およびデータストアを使用するビッグデータのワークフローを参照してください。

関数

すべて展開する

主な関数

`tall`	tall 配列の作成
`datastore`	データの大規模な集合用のデータストアを作成
`mapreduce`	メモリに収まらないデータセットを解析するプログラミング手法
`mapreducer`	mapreduce および tall 配列の並列実行環境の定義
`partition`	データストアを分割する
`numpartitions`	データストアの区画数

クラス

すべて展開する

主なクラス

`parallel.Pool`	ワーカーの並列プール
`parallel.cluster.Hadoop`	mapreducer、mapreduce および tall 配列用の Hadoop クラスター
`parallel.cluster.Spark`	mapreducer、mapreduce および tall 配列用の Spark クラスター (R2022b 以降)

トピック

tall 配列およびデータストアを使用するビッグデータのワークフロー
ビッグデータセットの解析に tall 配列を使用する一般的なワークフローについて学習する。
並列プールでの tall 配列の使用
Parallel Computing Toolbox および MATLAB Parallel Server での tall 配列を理解する。
クラウドでのビッグデータの処理
この例では、クラウド上の大規模データセットにアクセスし、ビッグデータ向けの MATLAB® の機能を使用してクラウドクラスター上で処理する方法を説明します。
Use Parallel Computing to Optimize Big Data Set for Analysis
This example shows how to optimize data preprocessing for analysis using parallel computing. (R2024a 以降)
Spark クラスターでの tall 配列の使用
MATLAB コードを変更せずに、Spark クラスター上で tall table を作成し、使用する。
並列プール上での mapreduce の実行
Parallel Computing Toolbox を使用して、ビッグデータの高度な解析に mapreduce を試す。
Hadoop クラスター上での mapreduce の実行
Hadoop クラスター上でのビッグデータの高度な解析に使用する mapreduce について学習する。
データストアの並列分割
partition を使用して、datastore を小部分に分割する。