Main Content

tall 配列およびデータ ストアを使用するビッグ データのワークフロー

Workflow for working with tall arrays created from datastores.

この図は、大規模データセットの解析に tall 配列を使用する一般的なワークフローを示しています。このワークフローでは、小さいデータ サブセットを解析してから、データセット全体の解析へとスケール アップします。並列計算は、手順 6 から 7 へのスケール アップに役立ちます。つまり、小さいデータセットでコードが機能することをチェックした後、そのコードをデータセット全体で実行します。MATLAB® を使用してこのワークフローをより優れたものにできます。

問題解決法必要な製品参照先
データが大きすぎるか

任意の行数を持つ、メモリに収まらないデータを扱うには、tall 配列を使用する。

このワークフローは、データ解析と機械学習によく適している。

MATLAB

メモリに収まらないデータの tall 配列

ローカル マシンで、tall 配列を並列で使用する。

MATLAB

Parallel Computing Toolbox™

並列プールでの tall 配列の使用

クラスターで、tall 配列を並列で使用する。

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

Hadoop クラスターで tall 配列を使用するには、Spark クラスターでの tall 配列の使用を参照してください。

その他すべてのタイプのクラスターでは、非ローカルのクラスター プロファイルを使用して並列プールを設定します。例は、並列プールでの tall 配列の使用を参照してください。

複数の次元でデータが大きい場合は、代わりに distributed を使用する。

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

並列ワーカーへの配列の分散

tall 配列の並列実行

Parallel Computing Toolbox は、マルチコア コンピューターの処理能力を最大限に使用して複数のアプリケーションをワーカーの並列プールで実行することにより、tall 配列の計算をただちに高速化できます。既に Parallel Computing Toolbox がインストールされている場合は、この機能を利用するために特にすることはありません。Parallel Computing Toolbox で tall 配列を使用する方法の詳細については、並列プールでの tall 配列の使用を参照してください。

mapreducer の使用によるコードの実行場所の制御

tall 配列の実行時に、既定の実行環境ではローカルの MATLAB セッションまたはローカルの並列プール (Parallel Computing Toolbox がある場合) を使用します。既定のプールではローカル ワーカーを使用し、通常はマシンの各コアにつき 1 つのワーカーを使用します。異なるクラスターを使用するように tall 配列の実行環境を変更するには、関数 mapreducer を使用します。

tall 配列を扱うアルゴリズムを開発する利点の 1 つは、コード作成が一度ですむことです。コードをローカルで作成してから、mapreducer を使用してスケール アップし、Parallel Computing Toolbox および MATLAB Parallel Server が提供する機能を利用できます。

参考

| | |

関連する例

詳細