tall 配列およびデータ ストアを使用するビッグ データのワークフロー
この図は、大規模データセットの解析に tall 配列を使用する一般的なワークフローを示しています。このワークフローでは、小さいデータ サブセットを解析してから、データセット全体の解析へとスケール アップします。並列計算は、手順 6 から 7 へのスケール アップに役立ちます。つまり、小さいデータセットでコードが機能することをチェックした後、そのコードをデータセット全体で実行します。MATLAB® を使用してこのワークフローをより優れたものにできます。
問題 | 解決法 | 必要な製品 | 参照先 |
---|---|---|---|
データが大きすぎるか | 任意の行数を持つ、メモリに収まらないデータを扱うには、tall 配列を使用する。 このワークフローは、データ解析と機械学習によく適している。 | MATLAB | |
ローカル マシンで、tall 配列を並列で使用する。 | MATLAB Parallel Computing Toolbox™ | ||
クラスターで、tall 配列を並列で使用する。 | MATLAB Parallel Computing Toolbox MATLAB Parallel Server™ | Hadoop クラスターで tall 配列を使用するには、Spark クラスターでの tall 配列の使用を参照してください。 その他すべてのタイプのクラスターでは、非ローカルのクラスター プロファイルを使用して並列プールを設定します。例は、並列プールでの tall 配列の使用を参照してください。 | |
複数の次元でデータが大きい場合は、代わりに | MATLAB Parallel Computing Toolbox MATLAB Parallel Server |
tall 配列の並列実行
Parallel Computing Toolbox は、マルチコア コンピューターの処理能力を最大限に使用して複数のアプリケーションをワーカーの並列プールで実行することにより、tall 配列の計算をただちに高速化できます。既に Parallel Computing Toolbox がインストールされている場合は、この機能を利用するために特にすることはありません。Parallel Computing Toolbox で tall 配列を使用する方法の詳細については、並列プールでの tall 配列の使用を参照してください。
mapreducer
の使用によるコードの実行場所の制御
tall 配列の実行時に、既定の実行環境ではローカルの MATLAB セッションまたはローカルの並列プール (Parallel Computing Toolbox がある場合) を使用します。既定のプールではローカル ワーカーを使用し、通常はマシンの各コアにつき 1 つのワーカーを使用します。異なるクラスターを使用するように tall 配列の実行環境を変更するには、関数 mapreducer
を使用します。
tall 配列を扱うアルゴリズムを開発する利点の 1 つは、コード作成が一度ですむことです。コードをローカルで作成してから、mapreducer
を使用してスケール アップし、Parallel Computing Toolbox および MATLAB Parallel Server が提供する機能を利用できます。
参考
gather
| tall
| datastore
| mapreducer