tall 配列およびデータストアを使用するビッグデータのワークフロー

Workflow for working with tall arrays created from datastores.

この図は、大規模データセットの解析に tall 配列を使用する一般的なワークフローを示しています。このワークフローでは、小さいデータサブセットを解析してから、データセット全体の解析へとスケールアップします。並列計算は、手順 6 から 7 へのスケールアップに役立ちます。つまり、小さいデータセットでコードが機能することをチェックした後、そのコードをデータセット全体で実行します。MATLAB^® を使用してこのワークフローをより優れたものにできます。

問題	解決法	必要な製品	参照先
データが大きすぎるか	任意の行数を持つ、メモリに収まらないデータを扱うには、tall 配列を使用する。このワークフローは、データ解析と機械学習によく適している。	MATLAB	メモリに収まらないデータの tall 配列
	ローカルマシンで、tall 配列を並列で使用する。	MATLAB Parallel Computing Toolbox™	並列プールでの tall 配列の使用
	クラスターで、tall 配列を並列で使用する。	MATLAB Parallel Computing Toolbox MATLAB Parallel Server™	Hadoop クラスターで tall 配列を使用するには、Spark クラスターでの tall 配列の使用を参照してください。その他すべてのタイプのクラスターでは、非ローカルのクラスタープロファイルを使用して並列プールを設定します。例は、並列プールでの tall 配列の使用を参照してください。
	複数の次元でデータが大きい場合は、代わりに `distributed` を使用する。	MATLAB Parallel Computing Toolbox MATLAB Parallel Server	並列ワーカーへの配列の分散

tall 配列の並列実行

Parallel Computing Toolbox は、マルチコアコンピューターの処理能力を最大限に使用して複数のアプリケーションをワーカーの並列プールで実行することにより、tall 配列の計算をただちに高速化できます。既に Parallel Computing Toolbox がインストールされている場合は、この機能を利用するために特にすることはありません。Parallel Computing Toolbox で tall 配列を使用する方法の詳細については、並列プールでの tall 配列の使用を参照してください。

`mapreducer` の使用によるコードの実行場所の制御

tall 配列の実行時に、既定の実行環境ではローカルの MATLAB セッションまたはローカルの並列プール (Parallel Computing Toolbox がある場合) を使用します。既定のプールではローカルワーカーを使用し、通常はマシンの各コアにつき 1 つのワーカーを使用します。異なるクラスターを使用するように tall 配列の実行環境を変更するには、関数 mapreducer を使用します。

tall 配列を扱うアルゴリズムを開発する利点の 1 つは、コード作成が一度ですむことです。コードをローカルで作成してから、mapreducer を使用してスケールアップし、Parallel Computing Toolbox および MATLAB Parallel Server が提供する機能を利用できます。

参考

gather | tall | datastore | mapreducer

詳細

データストア