メインコンテンツ

matlab.compiler.mlspark.RDD クラス

名前空間: matlab.compiler.mlspark
スーパークラス:

Spark の耐障害性分散データセット (RDD) を表すインターフェイス クラス

説明

"耐障害性分散データセット" または "RDD" は、Spark™ におけるプログラミングの抽象化です。これは、並列に動作できる多くのノードに分散された要素のコレクションを表します。Spark でのすべての作業は、新しい RDD の作成、既存の RDD の変換、または結果を計算するための RDD に対する操作の呼び出しとして表現されます。RDD は次の 2 つの方法で作成できます。

  • 外部データセットを読み込む

  • オブジェクトのコレクションを "ドライバー" プログラムで並列化する

作成後、RDD を使用して "変換""アクション" の 2 種類の操作を実行できます。

構築

RDD オブジェクトは、SparkContext クラスのメソッドを使用してのみ作成できます。わかりやすいように、RDD の作成に使用される SparkContext メソッドのコレクションを以下に示します。詳細については、SparkContext クラスのドキュメンテーションを参照してください。

SparkContext のメソッド名目的
parallelize

ローカルの MATLAB® 値から RDD を作成

datastoreToRDD

MATLAB datastore を Spark RDD に変換

textFile

テキスト ファイルから RDD を作成

SparkContext クラスのメソッドを使用して RDD を作成した後、RDD クラスの任意のメソッドを使用して RDD を操作できます。

プロパティ

このクラスのプロパティは非表示です。

メソッド

変換

aggregateByKey特定の結合関数とニュートラルな "ゼロ値" を使用して、各キーの値を集計
cartesian2 つの RDD のデカルト積である RDD の作成
coalesceRDD 内のパーティション数の削減
cogroup同じキーを共有する RDD からのデータをグループ化
combineByKeyCombine the elements for each key using a custom set of aggregation functions
distinct既存の RDD の個々に異なる要素を含む新しい RDD を返す
filter述語関数を満たす要素のみを含む新しい RDD を返す
flatMapまず既存の RDD のすべての要素に関数を適用し、次に結果をフラット化することにより、新しい RDD を返す
flatMapValuesキーを変更せずに flatMap メソッドによってキーと値のペアの RDD の各値を渡す
foldByKey結合関数とニュートラルな "ゼロ値" を使用して、各キーの値をマージ
fullOuterJoin2 つのキーと値のペアの RDD 間で完全外部連結を実行
glomCoalesce all elements within each partition of an RDD
groupByグループ化された項目からなる RDD を返す
groupByKeyRDD の各キーの値を 1 つのシーケンスにグループ化
intersectionある RDD と別の RDD との積集合を返す
joinキーが一致するすべての要素のペアを含む RDD を返す
keyBy関数を適用して RDD 内の要素のタプルを作成
keys各タプルのキーをもつ RDD を返す
leftOuterJoin左外部連結の実行
map入力 RDD の各要素に関数を適用して、新しい RDD を返す
mapValuesキーを変更せずに map 関数によってキーと値のペアの RDD の各値を渡す
reduceByKey結合 reduce 関数を使用して各キーの値をマージ
repartition厳密に numPartitions 個のパーティションをもつ新しい RDD を返す
rightOuterJoin右外部連結の実行
sortBy特定の関数で RDD を並べ替え
sortByKeyキーと値のペアで構成される RDD をキーで並べ替え
subtract2 つの RDD の差集合から得られた値を返す
subtractByKey2 つの RDD 間のキーの差集合から得られたキーと値のペアを返す
unionある RDD と別の RDD との和集合を返す
values各タプルの値をもつ RDD を返す
zipある RDD と別の RDD の結合
zipWithIndexRDD とその要素インデックスの結合
zipWithUniqueId生成された一意の Long ID と RDD の結合

アクション

aggregate各パーティションの要素を集計したあと、すべてのパーティションの結果を 1 つの値に集計
collectRDD 内のすべての要素を含む MATLAB cell 配列を返す
collectAsMapRDD 内のキーと値のペアを MATLAB containers.Map オブジェクトとして返す
countRDD 内の要素数をカウント
fold各パーティションの要素と、すべてのパーティションの後続の結果を集計
reduce指定された可換的関数と結合関数を使用して RDD の要素を削減
reduceByKeyLocallyMerge the values for each key using an associative reduce function, but return the results immediately to the driver
saveAsKeyValueDatastoreキーと値の RDD を関数 datastore を使用して読み戻すことができるバイナリ ファイルとして保存
saveAsTallDatastoreRDD を、関数 datastore を使用して読み戻すことができるバイナリ ファイルに MATLAB tall 配列として保存
saveAsTextFileRDD をテキスト ファイルとして保存

操作

cacheRDD をメモリに保存
checkpointチェックポイント用に RDD をマーク
getCheckpointFileGet the name of the file to which an RDD is checkpointed
getDefaultReducePartitionsGet the number of default reduce partitions in an RDD
getNumPartitionsReturn the number of partitions in an RDD
isEmptyRDD に要素が含まれているかどうかの判定
keyLimitディスクにあふれる前に保存できる、一意のキーのしきい値を返す
persistRDD のストレージ レベルの値を、計算後に操作全体で永続するように設定
toDebugStringデバッグ用に RDD とその再帰的な依存関係の記述を取得
unpersistRDD を非永続としてマークし、それに関連するすべてのブロックをメモリとディスクから削除

詳細

すべて展開する

参考文献

詳細については、Spark の最新のドキュメンテーションを参照してください。

バージョン履歴

R2016b で導入