このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
parallel.cluster.Spark
説明
parallel.cluster.Spark
オブジェクトは、Spark™ クラスターへのアクセスを表し、そのアクセスを提供します。parallel.cluster.Spark
オブジェクトを関数 mapreduce
および関数 mapreducer
への入力として使用し、Spark クラスターを tall 配列および mapreduce
の並列実行環境として指定します。
作成
Spark クラスター オブジェクトは parallel.cluster.Spark
を使用して作成します。
説明
は、Spark クラスターを表す sparkCluster
= parallel.cluster.Spark parallel.cluster.Spark
オブジェクトを作成します。
は、1 つ以上の名前と値の引数を使用して、sparkCluster
= parallel.cluster.Spark(Name,Value
)parallel.cluster.Spark
オブジェクトのオプションのプロパティ ClusterMatlabRoot
と SparkInstallFolder
を設定します。たとえば、Spark のインストール フォルダーを変更するには、'SparkInstallFolder','/share/spark/spark-3.3.0'
を使用します。
プロパティ
オブジェクト関数
mapreduce | メモリに収まらないデータセットを解析するプログラミング手法 |
mapreducer | mapreduce および tall 配列の並列実行環境の定義 |
例
ヒント
Spark クラスターでは、使用可能なメモリ量に制限が設定されます。ワークフローをサポートするため、収集するデータのサイズを調整しなければなりません。
クライアントに収集されるデータ量は、Spark のプロパティにより制限されます。
spark.driver.memory
spark.executor.memory
単一の Spark タスクから収集するデータ量は、これらのプロパティに適合しなければなりません。単一の Spark タスクは HDFS からの 1 データ ブロックを処理します。これは既定で 128 MB のデータです。元のデータの大部分を含む tall 配列を収集する場合は、必ずこれらのプロパティが適合するように設定しなければなりません。
これらのプロパティが小さすぎる値に設定された場合、以下のようなエラーが表示されます。
Error using tall/gather (line 50) Out of memory; unable to gather a partition of size 300m from Spark. Adjust the values of the Spark properties spark.driver.memory and spark.executor.memory to fit this partition.
エラー メッセージには、必要なプロパティの設定も示されます。
プロパティは、クラスターの既定の設定か MATLAB 上で直接調整します。プロパティを MATLAB で調整するには、クラスターの SparkProperties
プロパティに名前と値のペアを追加します。以下に例を示します。
cluster = parallel.cluster.Spark; cluster.SparkProperties('spark.driver.memory') = '2048m'; cluster.SparkProperties('spark.executor.memory') = '2048m'; mapreducer(cluster);
バージョン履歴
R2022b で導入