parallel.cluster.Spark

mapreducer、mapreduce および tall 配列用の Spark クラスター

R2022b 以降

説明

parallel.cluster.Spark オブジェクトは、Spark™ クラスターへのアクセスを表し、そのアクセスを提供します。parallel.cluster.Spark オブジェクトを関数 mapreduce および関数 mapreducer への入力として使用し、Spark クラスターを tall 配列および mapreduce の並列実行環境として指定します。

作成

関数 parcluster を使用して、Spark クラスタープロファイルから parallel.cluster.Spark クラスターオブジェクトを作成します。または、関数 parallel.cluster.Spark (ここで説明) を使用して Spark クラスターオブジェクトを作成します。

構文

sparkCluster = parallel.cluster.Spark

sparkCluster = parallel.cluster.Spark(Name,Value)

説明

sparkCluster = parallel.cluster.Spark は、Spark クラスターを表す parallel.cluster.Spark オブジェクトを作成します。

sparkCluster = parallel.cluster.Spark(Name,Value) は、parallel.cluster.Spark オブジェクトで 1 つ以上の名前と値の引数を使用してオプションのプロパティを設定します。たとえば、Spark のインストールフォルダーを変更するには、SparkInstallFolder="/share/spark/spark-3.3.0" を使用します。有効なプロパティの一覧については、プロパティを参照してください。

例

プロパティ

すべて展開する

`AdditionalPaths` — MATLAB^® 検索パスに追加するフォルダー
文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

ワーカーの MATLAB 検索パスに追加するフォルダー。文字ベクトル、string、string 配列、または文字ベクトルの cell 配列として指定します。

計算をワーカーにオフロードするときに、クライアント上での計算に必要なファイルもすべてワーカー上で使用可能でなければなりません。既定で、クライアントはそれらのファイルを検出して追加しようとします。自動検出をオフにするには、AutoAttachFiles プロパティを false に設定します。ソフトウェアがいずれかのファイルを検出できない場合や、クライアントからワーカーへのファイルの送信速度が遅い場合には、以下のいずれかのオプションを使用します。

ワーカー上でアクセスできないフォルダーにファイルが含まれている場合は、AttachedFiles プロパティを設定します。指定した各ファイルが、クラスターによってクライアントからワーカーにコピーされます。
ワーカー上でアクセスできるフォルダーにファイルが含まれている場合は、代わりに AdditionalPaths プロパティを設定できます。AdditionalPaths プロパティを使用して各ワーカーの MATLAB 検索パスにパスを追加し、クライアントからワーカーへの不必要なファイルのコピーを回避します。

`AttachedFiles` — ワーカーに送信されるファイルとフォルダー
文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

mapreduce の呼び出し時にワーカーに送信されるファイルとフォルダー。文字ベクトル、string、string 配列、または文字ベクトルの cell 配列として指定します。

`AutoAttachFiles` — ファイルを自動添付するかどうかを指定
true (既定値) | false

クライアントでファイルを自動的に検出して添付するかどうかを指定します。

データ型: logical

`ClusterMatlabRoot` — ワーカーが使用する MATLAB へのパス
文字ベクトル

ワーカーが使用する MATLAB へのパス。'ClusterMatlabRoot' と文字ベクトルからなるコンマ区切りのペアとして指定します。これは、各マシンに対してローカルなものかネットワーク共有されたものかにかかわらず、ワーカーが使用する MATLAB Parallel Server™ のインストールを指します。

データ型: string

`Jobs` — クラスター内に含まれるジョブ
読み取り専用: `parallel.job` オブジェクト | `parallel.Job` オブジェクトの配列

R2024b 以降

このプロパティは読み取り専用です。

クラスター内に含まれるジョブ。parallel.Job オブジェクト、または parallel.Job オブジェクトの配列として返されます。クラスターに複数のジョブが含まれている場合、MATLAB は配列内のジョブを ID プロパティで並べ替えます。この並べ替えは、各ジョブの State プロパティの値に関係なく、ジョブの作成順と一致します。

`LicenseNumber` — 使用するライセンス番号
整数

オンラインライセンスで使用するライセンス番号。

`Modified` — クラスターが変更されている場合は logical true
読み取り専用: true | false

R2024a 以降

このプロパティは読み取り専用です。

このクラスターのいずれかのプロパティがクラスタープロファイルと比較して変更されている場合は logical true。クラスタープロパティを変更した場合は logical true (1)、そうでない場合は logical false (0) として返されます。

データ型: logical

`NumThreads` — ワーカーの計算スレッド数
非負の整数

R2024a 以降

ワーカーの計算スレッド数。非負の整数として指定します。

`OperatingSystem` — クラスターワーカーマシンのオペレーティングシステム
`"windows"` | `"unix"` | `"mixed"`

R2024a 以降

クラスターワーカーマシンのオペレーティングシステム。次のいずれかの値として指定します。

"windows"
"unix"
"mixed"

`Profile` — クラスターオブジェクトの作成に使用するプロファイルの名前
文字ベクトル

R2024a 以降

クラスターオブジェクトの作成に使用するプロファイルの名前。文字ベクトルとして指定します。

データ型: char

`RequiresOnlineLicensing` — クラスターでオンラインライセンスが必要かどうかを指定
false (既定値) | true

Spark クラスターでオンラインライセンスを使用するかどうかを指定します。

データ型: logical

`SparkInstallFolder` — クライアントマシン上の Spark のインストールパス
文字ベクトル | string 配列

クライアントマシン上の Spark のインストールパス。SparkInstallFolder と文字ベクトルまたは string 配列からなるコンマ区切りのペアとして指定します。このプロパティが設定されていない場合、既定値は環境変数 SPARK_PREFIX で指定された値ですが、それが設定されていない場合は SPARK_HOME になります。

データ型: char

`SparkProperties` — Spark のプロパティの名前と値のペアのマップ
文字ベクトル

Spark クラスターに渡される Spark のプロパティの名前と値のペアのマップ。

SparkProperties を使用すると、Spark の構成プロパティをオーバーライドできます。プロパティのリストは、Spark のドキュメンテーションを参照してください。

`Type` — クラスタータイプ
読み取り専用: `'Spark'`

R2024a 以降

このプロパティは読み取り専用です。

このクラスターのタイプ。'Spark' として返されます。

`UserData` — 現在のセッションでクラスターオブジェクトに関連付けられているデータ
任意の型

R2024a 以降

現在のセッションでクラスターオブジェクトに関連付けられているデータ。任意の MATLAB データ型として指定します。

オブジェクト関数

`mapreduce`	メモリに収まらないデータセットを解析するプログラミング手法
`mapreducer`	mapreduce および tall 配列の並列実行環境の定義
`saveAsProfile`	クラスターのプロパティを指定されたプロファイルに保存する
`saveProfile`	クラスターの変更済みプロパティを現在のプロファイルに保存する

例

すべて折りたたむ

Spark クラスタープロファイルからの Spark クラスターの作成

R2024a 以降

Spark クラスタープロファイルから parallel.cluster.Spark オブジェクトを作成して使用します。

Spark クラスターのプロファイルの作成方法については、クライアント構成 (MATLAB Parallel Server)を参照してください。

sparkCluster = parcluster("SparkProfile")
mr = mapreducer(sparkCluster)

cluster = 

 Spark Cluster

    Properties: 

                      Type: Spark
                   Profile: SparkProfile
                  Modified: false
                NumThreads: 1
   RequiresOnlineLicensing: false
         ClusterMatlabRoot: /network/installs/MATLAB/R2024a/matlab

        SparkInstallFolder: /network/installs/spark/3.0.2-3.2
           SparkProperties: [1x1 parallel.cluster.SparkProperties]

Spark クラスター用のクラスターオブジェクトの手動による作成

parallel.cluster.Spark オブジェクトを手動で作成して使用します。

マシン上の Spark インストールを指定してクラスターオブジェクトを作成し、Spark クラスターを mapreduce 並列実行環境として設定します。

sparkCluster = parallel.cluster.Spark(SparkInstallFolder="/host/spark-install");
mr = mapreducer(sparkCluster)

制限

Spark クラスタープロファイルを既定のプロファイルとして設定することはサポートされていません。
Spark クラスターは並列プールとバッチジョブをサポートしていません。

ヒント

Spark クラスターでは、使用可能なメモリ量に制限が設定されます。ワークフローをサポートするため、収集するデータのサイズを調整しなければなりません。

クライアントに収集されるデータ量は、Spark のプロパティにより制限されます。

spark.driver.memory
spark.executor.memory

MATLAB から投入される Spark ジョブの spark.executor.memory プロパティの既定値は 2560 MB です。

単一の Spark タスクから収集するデータ量は、これらのプロパティに適合しなければなりません。単一の Spark タスクは HDFS からの 1 データブロックを処理します。これは既定で 128 MB のデータです。元のデータの大部分を含む tall 配列を収集する場合は、必ずこれらのプロパティが適合するように設定しなければなりません。

これらのプロパティが小さすぎる値に設定された場合、以下のようなエラーが表示されます。

Error using tall/gather (line 50)
Out of memory; unable to gather a partition of size 300m from Spark.
Adjust the values of the Spark properties spark.driver.memory and 
spark.executor.memory to fit this partition.

エラーメッセージには、必要なプロパティの設定も示されます。

プロパティは、クラスターの既定の設定か MATLAB 上で直接調整します。プロパティを MATLAB で調整するには、これらの Spark プロパティを Spark クラスタープロファイルの [SparkProperties] のテーブルに追加します。

名前	値	タイプ
`spark.driver.memory`	2048m	`String`
`spark.executor.memory`	2048m	`String`

Spark クラスターオブジェクトを編集することもできます。

cluster = parcluster("SparkProfile");
cluster.SparkProperties('spark.driver.memory') = '2048m';
cluster.SparkProperties('spark.executor.memory') = '2048m';
mapreducer(cluster);

バージョン履歴

R2022b で導入

すべて展開する

R2024a: Spark クラスタープロファイルの作成と使用

これで、MATLAB Parallel Server と統合された Spark ベースのクラスターのクラスタープロファイルを作成して検証できるようになりました。

参考

mapreduce | mapreducer

トピック

Spark クラスターでの tall 配列の使用

parallel.cluster.Spark

説明

作成

構文

説明

プロパティ

AdditionalPaths — MATLAB® 検索パスに追加するフォルダー 文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

AttachedFiles — ワーカーに送信されるファイルとフォルダー 文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

AutoAttachFiles — ファイルを自動添付するかどうかを指定 true (既定値) | false

ClusterMatlabRoot — ワーカーが使用する MATLAB へのパス 文字ベクトル

Jobs — クラスター内に含まれるジョブ 読み取り専用: parallel.job オブジェクト | parallel.Job オブジェクトの配列

LicenseNumber — 使用するライセンス番号 整数

Modified — クラスターが変更されている場合は logical true 読み取り専用: true | false

NumThreads — ワーカーの計算スレッド数 非負の整数

OperatingSystem — クラスター ワーカー マシンのオペレーティング システム "windows" | "unix" | "mixed"

Profile — クラスター オブジェクトの作成に使用するプロファイルの名前 文字ベクトル

RequiresOnlineLicensing — クラスターでオンライン ライセンスが必要かどうかを指定 false (既定値) | true

SparkInstallFolder — クライアント マシン上の Spark のインストール パス 文字ベクトル | string 配列

SparkProperties — Spark のプロパティの名前と値のペアのマップ 文字ベクトル

Type — クラスター タイプ 読み取り専用: 'Spark'

UserData — 現在のセッションでクラスター オブジェクトに関連付けられているデータ 任意の型

オブジェクト関数

例

Spark クラスター プロファイルからの Spark クラスターの作成

Spark クラスター用のクラスター オブジェクトの手動による作成

制限

ヒント

バージョン履歴

R2024a: Spark クラスター プロファイルの作成と使用

参考

トピック

`AdditionalPaths` — MATLAB^® 検索パスに追加するフォルダー
文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

`AttachedFiles` — ワーカーに送信されるファイルとフォルダー
文字ベクトル | string | string 配列 | 文字ベクトルの cell 配列

`AutoAttachFiles` — ファイルを自動添付するかどうかを指定
true (既定値) | false

`ClusterMatlabRoot` — ワーカーが使用する MATLAB へのパス
文字ベクトル

`Jobs` — クラスター内に含まれるジョブ
読み取り専用: `parallel.job` オブジェクト | `parallel.Job` オブジェクトの配列

`LicenseNumber` — 使用するライセンス番号
整数

`Modified` — クラスターが変更されている場合は logical true
読み取り専用: true | false

`NumThreads` — ワーカーの計算スレッド数
非負の整数

`OperatingSystem` — クラスターワーカーマシンのオペレーティングシステム
`"windows"` | `"unix"` | `"mixed"`

`Profile` — クラスターオブジェクトの作成に使用するプロファイルの名前
文字ベクトル

`RequiresOnlineLicensing` — クラスターでオンラインライセンスが必要かどうかを指定
false (既定値) | true

`SparkInstallFolder` — クライアントマシン上の Spark のインストールパス
文字ベクトル | string 配列

`SparkProperties` — Spark のプロパティの名前と値のペアのマップ
文字ベクトル

`Type` — クラスタータイプ
読み取り専用: `'Spark'`

`UserData` — 現在のセッションでクラスターオブジェクトに関連付けられているデータ
任意の型

Spark クラスタープロファイルからの Spark クラスターの作成

Spark クラスター用のクラスターオブジェクトの手動による作成

R2024a: Spark クラスタープロファイルの作成と使用