parallel.cluster.Spark
説明
parallel.cluster.Spark
オブジェクトは、Spark™ クラスターへのアクセスを表し、そのアクセスを提供します。parallel.cluster.Spark
オブジェクトを関数 mapreduce
および関数 mapreducer
への入力として使用し、Spark クラスターを tall 配列および mapreduce
の並列実行環境として指定します。
作成
関数 parcluster
を使用して、Spark クラスター プロファイルから parallel.cluster.Spark
クラスター オブジェクトを作成します。または、関数 parallel.cluster.Spark
(ここで説明) を使用して Spark クラスター オブジェクトを作成します。
説明
は、Spark クラスターを表す sparkCluster
= parallel.cluster.Spark parallel.cluster.Spark
オブジェクトを作成します。
プロパティ
オブジェクト関数
mapreduce | メモリに収まらないデータセットを解析するプログラミング手法 |
mapreducer | mapreduce および tall 配列の並列実行環境の定義 |
saveAsProfile | クラスターのプロパティを指定されたプロファイルに保存する |
saveProfile | クラスターの変更済みプロパティを現在のプロファイルに保存する |
例
制限
Spark クラスター プロファイルを既定のプロファイルとして設定することはサポートされていません。
Spark クラスターは並列プールとバッチ ジョブをサポートしていません。
ヒント
Spark クラスターでは、使用可能なメモリ量に制限が設定されます。ワークフローをサポートするため、収集するデータのサイズを調整しなければなりません。
クライアントに収集されるデータ量は、Spark のプロパティにより制限されます。
spark.driver.memory
spark.executor.memory
MATLAB から投入される Spark ジョブの spark.executor.memory
プロパティの既定値は 2560 MB です。
単一の Spark タスクから収集するデータ量は、これらのプロパティに適合しなければなりません。単一の Spark タスクは HDFS からの 1 データ ブロックを処理します。これは既定で 128 MB のデータです。元のデータの大部分を含む tall 配列を収集する場合は、必ずこれらのプロパティが適合するように設定しなければなりません。
これらのプロパティが小さすぎる値に設定された場合、以下のようなエラーが表示されます。
Error using tall/gather (line 50) Out of memory; unable to gather a partition of size 300m from Spark. Adjust the values of the Spark properties spark.driver.memory and spark.executor.memory to fit this partition.
プロパティは、クラスターの既定の設定か MATLAB 上で直接調整します。プロパティを MATLAB で調整するには、これらの Spark プロパティを Spark クラスター プロファイルの [SparkProperties] のテーブルに追加します。
名前 | 値 | タイプ |
---|---|---|
spark.driver.memory | 2048m | String |
spark.executor.memory | 2048m | String |
Spark クラスター オブジェクトを編集することもできます。
cluster = parcluster("SparkProfile"); cluster.SparkProperties('spark.driver.memory') = '2048m'; cluster.SparkProperties('spark.executor.memory') = '2048m'; mapreducer(cluster);