matlab.compiler.mlspark.RDD クラス

名前空間: matlab.compiler.mlspark
スーパークラス:

Spark の耐障害性分散データセット (RDD) を表すインターフェイスクラス

説明

"耐障害性分散データセット" または "RDD" は、Spark™ におけるプログラミングの抽象化です。これは、並列に動作できる多くのノードに分散された要素のコレクションを表します。Spark でのすべての作業は、新しい RDD の作成、既存の RDD の変換、または結果を計算するための RDD に対する操作の呼び出しとして表現されます。RDD は次の 2 つの方法で作成できます。

外部データセットを読み込む
オブジェクトのコレクションを "ドライバー" プログラムで並列化する

作成後、RDD を使用して "変換" と "アクション" の 2 種類の操作を実行できます。

構築

RDD オブジェクトは、SparkContext クラスのメソッドを使用してのみ作成できます。わかりやすいように、RDD の作成に使用される SparkContext メソッドのコレクションを以下に示します。詳細については、SparkContext クラスのドキュメンテーションを参照してください。

SparkContext のメソッド名	目的
`parallelize`	ローカルの MATLAB^® 値から RDD を作成
`datastoreToRDD`	MATLAB `datastore` を Spark `RDD` に変換
`textFile`	テキストファイルから RDD を作成

SparkContext クラスのメソッドを使用して RDD を作成した後、RDD クラスの任意のメソッドを使用して RDD を操作できます。

プロパティ

このクラスのプロパティは非表示です。

メソッド

変換

aggregateByKey	特定の結合関数とニュートラルな "ゼロ値" を使用して、各キーの値を集計
cartesian	2 つの RDD のデカルト積である RDD の作成
coalesce	RDD 内のパーティション数の削減
cogroup	同じキーを共有する RDD からのデータをグループ化
combineByKey	Combine the elements for each key using a custom set of aggregation functions
distinct	既存の RDD の個々に異なる要素を含む新しい RDD を返す
filter	述語関数を満たす要素のみを含む新しい RDD を返す
flatMap	まず既存の RDD のすべての要素に関数を適用し、次に結果をフラット化することにより、新しい RDD を返す
flatMapValues	キーを変更せずに `flatMap` メソッドによってキーと値のペアの RDD の各値を渡す
foldByKey	結合関数とニュートラルな "ゼロ値" を使用して、各キーの値をマージ
fullOuterJoin	2 つのキーと値のペアの RDD 間で完全外部連結を実行
glom	Coalesce all elements within each partition of an RDD
groupBy	グループ化された項目からなる RDD を返す
groupByKey	RDD の各キーの値を 1 つのシーケンスにグループ化
intersection	ある RDD と別の RDD との積集合を返す
join	キーが一致するすべての要素のペアを含む RDD を返す
keyBy	関数を適用して RDD 内の要素のタプルを作成
keys	各タプルのキーをもつ RDD を返す
leftOuterJoin	左外部連結の実行
map	入力 RDD の各要素に関数を適用して、新しい RDD を返す
mapValues	キーを変更せずに map 関数によってキーと値のペアの RDD の各値を渡す
reduceByKey	結合 reduce 関数を使用して各キーの値をマージ
repartition	厳密に `numPartitions` 個のパーティションをもつ新しい RDD を返す
rightOuterJoin	右外部連結の実行
sortBy	特定の関数で RDD を並べ替え
sortByKey	キーと値のペアで構成される RDD をキーで並べ替え
subtract	2 つの RDD の差集合から得られた値を返す
subtractByKey	2 つの RDD 間のキーの差集合から得られたキーと値のペアを返す
union	ある RDD と別の RDD との和集合を返す
values	各タプルの値をもつ RDD を返す
zip	ある RDD と別の RDD の結合
zipWithIndex	RDD とその要素インデックスの結合
zipWithUniqueId	生成された一意の Long ID と RDD の結合

アクション

aggregate	各パーティションの要素を集計したあと、すべてのパーティションの結果を 1 つの値に集計
collect	RDD 内のすべての要素を含む MATLAB cell 配列を返す
collectAsMap	RDD 内のキーと値のペアを MATLAB `containers.Map` オブジェクトとして返す
count	RDD 内の要素数をカウント
fold	各パーティションの要素と、すべてのパーティションの後続の結果を集計
reduce	指定された可換的関数と結合関数を使用して RDD の要素を削減
reduceByKeyLocally	Merge the values for each key using an associative reduce function, but return the results immediately to the driver
saveAsKeyValueDatastore	キーと値の RDD を関数 `datastore` を使用して読み戻すことができるバイナリファイルとして保存
saveAsTallDatastore	RDD を、関数 `datastore` を使用して読み戻すことができるバイナリファイルに MATLAB tall 配列として保存
saveAsTextFile	RDD をテキストファイルとして保存

操作

cache	RDD をメモリに保存
checkpoint	チェックポイント用に RDD をマーク
getCheckpointFile	Get the name of the file to which an RDD is checkpointed
getDefaultReducePartitions	Get the number of default reduce partitions in an RDD
getNumPartitions	Return the number of partitions in an RDD
isEmpty	RDD に要素が含まれているかどうかの判定
keyLimit	ディスクにあふれる前に保存できる、一意のキーのしきい値を返す
persist	RDD のストレージレベルの値を、計算後に操作全体で永続するように設定
toDebugString	デバッグ用に RDD とその再帰的な依存関係の記述を取得
unpersist	RDD を非永続としてマークし、それに関連するすべてのブロックをメモリとディスクから削除

詳細

すべて展開する

耐障害性分散データセット (RDD)

"耐障害性分散データセット" または "RDD" は、Spark におけるプログラミングの抽象化です。これは、並列に動作できる多くのノードに分散された要素のコレクションを表します。RDD はフォールトトレラントになる傾向があります。RDD は次の 2 つの方法で作成できます。

外部データセットを読み込む。
オブジェクトのコレクションを "ドライバー" プログラムで並列化する。

作成後、RDD を使用して "変換" と "アクション" の 2 種類の操作を実行できます。

変換

"変換" は、新しい RDD を返す既存の RDD に対する操作です。すべてではありませんが、多くの変換は要素単位の操作です。

アクション

"アクション" は、RDD に基づいて最終結果を計算し、その結果をドライバープログラムに返すか、HDFS™ などの外部ストレージシステムに保存します。

参考文献

詳細については、Spark の最新のドキュメンテーションを参照してください。

matlab.compiler.mlspark.RDD クラス

説明

構築

プロパティ

メソッド

変換

アクション

操作

詳細

耐障害性分散データセット (RDD)

変換

アクション

参考文献

バージョン履歴

参考

クラス

トピック