Main Content

このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。

tall 配列およびデータ ストアを使用するビッグ データのワークフロー

この図は、大規模データセットの解析に tall 配列を使用する一般的なワークフローを示しています。このワークフローでは、小さいデータ サブセットを解析してから、データセット全体の解析へとスケール アップします。並列計算は、手順 6 から 7 へのスケール アップに役立ちます。つまり、小さいデータセットでコードが機能することをチェックした後、そのコードをデータセット全体で実行します。MATLAB® を使用してこのワークフローをより優れたものにできます。

問題解決法必要な製品参照先
データが大きすぎるか

任意の行数を持つ、メモリに収まらないデータを扱うには、tall 配列を使用する。

このワークフローは、データ解析と機械学習によく適している。

MATLAB

メモリに収まらないデータの tall 配列

ローカル マシンで、tall 配列を並列で使用する。

MATLAB

Parallel Computing Toolbox™

並列プールでの tall 配列の使用

クラスターで、tall 配列を並列で使用する。

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server™

Hadoop クラスターで tall 配列を使用するには、Spark 対応 Hadoop クラスターでの tall 配列の使用を参照してください。

その他すべてのタイプのクラスターでは、非ローカルのクラスター プロファイルを使用して並列プールを設定します。例は、並列プールでの tall 配列の使用を参照してください。

複数の次元でデータが大きい場合は、代わりに distributed を使用する。

MATLAB

Parallel Computing Toolbox

MATLAB Parallel Server

並列ワーカーへの配列の分散

tall 配列の並列実行

Parallel Computing Toolbox は、マルチコア コンピューターの処理能力を最大限に使用して複数のアプリケーションをワーカーの並列プールで実行することにより、tall 配列の計算をただちに高速化できます。既に Parallel Computing Toolbox がインストールされている場合は、この機能を利用するために特にすることはありません。Parallel Computing Toolbox で tall 配列を使用する方法の詳細については、並列プールでの tall 配列の使用を参照してください。

mapreducer の使用によるコードの実行場所の制御

tall 配列の実行時に、既定の実行環境ではローカルの MATLAB セッションまたはローカルの並列プール (Parallel Computing Toolbox がある場合) を使用します。既定のプールではローカル ワーカーを使用し、通常はマシンの各コアにつき 1 つのワーカーを使用します。異なるクラスターを使用するように tall 配列の実行環境を変更するには、関数 mapreducer を使用します。

tall 配列を扱うアルゴリズムを開発する利点の 1 つは、コード作成が一度ですむことです。コードをローカルで作成してから、mapreducer を使用してスケール アップし、Parallel Computing Toolbox および MATLAB Parallel Server が提供する機能を利用できます。

参考

| | |

関連する例

詳細