matlab.compiler.mlspark.RDD クラス
名前空間: matlab.compiler.mlspark
スーパークラス:
Spark の耐障害性分散データセット (RDD) を表すインターフェイス クラス
説明
構築
RDD オブジェクトは、SparkContext クラスのメソッドを使用してのみ作成できます。わかりやすいように、RDD の作成に使用される SparkContext メソッドのコレクションを以下に示します。詳細については、SparkContext クラスのドキュメンテーションを参照してください。
| SparkContext のメソッド名 | 目的 |
|---|---|
parallelize | ローカルの MATLAB® 値から RDD を作成 |
datastoreToRDD | MATLAB |
textFile | テキスト ファイルから RDD を作成 |
SparkContext クラスのメソッドを使用して RDD を作成した後、RDD クラスの任意のメソッドを使用して RDD を操作できます。
プロパティ
このクラスのプロパティは非表示です。
メソッド
変換
| aggregateByKey | 特定の結合関数とニュートラルな "ゼロ値" を使用して、各キーの値を集計 |
| cartesian | 2 つの RDD のデカルト積である RDD の作成 |
| coalesce | RDD 内のパーティション数の削減 |
| cogroup | 同じキーを共有する RDD からのデータをグループ化 |
| combineByKey | Combine the elements for each key using a custom set of aggregation functions |
| distinct | 既存の RDD の個々に異なる要素を含む新しい RDD を返す |
| filter | 述語関数を満たす要素のみを含む新しい RDD を返す |
| flatMap | まず既存の RDD のすべての要素に関数を適用し、次に結果をフラット化することにより、新しい RDD を返す |
| flatMapValues | キーを変更せずに flatMap メソッドによってキーと値のペアの RDD の各値を渡す |
| foldByKey | 結合関数とニュートラルな "ゼロ値" を使用して、各キーの値をマージ |
| fullOuterJoin | 2 つのキーと値のペアの RDD 間で完全外部連結を実行 |
| glom | Coalesce all elements within each partition of an RDD |
| groupBy | グループ化された項目からなる RDD を返す |
| groupByKey | RDD の各キーの値を 1 つのシーケンスにグループ化 |
| intersection | ある RDD と別の RDD との積集合を返す |
| join | キーが一致するすべての要素のペアを含む RDD を返す |
| keyBy | 関数を適用して RDD 内の要素のタプルを作成 |
| keys | 各タプルのキーをもつ RDD を返す |
| leftOuterJoin | 左外部連結の実行 |
| map | 入力 RDD の各要素に関数を適用して、新しい RDD を返す |
| mapValues | キーを変更せずに map 関数によってキーと値のペアの RDD の各値を渡す |
| reduceByKey | 結合 reduce 関数を使用して各キーの値をマージ |
| repartition | 厳密に numPartitions 個のパーティションをもつ新しい RDD を返す |
| rightOuterJoin | 右外部連結の実行 |
| sortBy | 特定の関数で RDD を並べ替え |
| sortByKey | キーと値のペアで構成される RDD をキーで並べ替え |
| subtract | 2 つの RDD の差集合から得られた値を返す |
| subtractByKey | 2 つの RDD 間のキーの差集合から得られたキーと値のペアを返す |
| union | ある RDD と別の RDD との和集合を返す |
| values | 各タプルの値をもつ RDD を返す |
| zip | ある RDD と別の RDD の結合 |
| zipWithIndex | RDD とその要素インデックスの結合 |
| zipWithUniqueId | 生成された一意の Long ID と RDD の結合 |
アクション
| aggregate | 各パーティションの要素を集計したあと、すべてのパーティションの結果を 1 つの値に集計 |
| collect | RDD 内のすべての要素を含む MATLAB cell 配列を返す |
| collectAsMap | RDD 内のキーと値のペアを MATLAB containers.Map オブジェクトとして返す |
| count | RDD 内の要素数をカウント |
| fold | 各パーティションの要素と、すべてのパーティションの後続の結果を集計 |
| reduce | 指定された可換的関数と結合関数を使用して RDD の要素を削減 |
| reduceByKeyLocally | Merge the values for each key using an associative reduce function, but return the results immediately to the driver |
| saveAsKeyValueDatastore | キーと値の RDD を関数 datastore を使用して読み戻すことができるバイナリ ファイルとして保存 |
| saveAsTallDatastore | RDD を、関数 datastore を使用して読み戻すことができるバイナリ ファイルに MATLAB tall 配列として保存 |
| saveAsTextFile | RDD をテキスト ファイルとして保存 |
操作
| cache | RDD をメモリに保存 |
| checkpoint | チェックポイント用に RDD をマーク |
| getCheckpointFile | Get the name of the file to which an RDD is checkpointed |
| getDefaultReducePartitions | Get the number of default reduce partitions in an RDD |
| getNumPartitions | Return the number of partitions in an RDD |
| isEmpty | RDD に要素が含まれているかどうかの判定 |
| keyLimit | ディスクにあふれる前に保存できる、一意のキーのしきい値を返す |
| persist | RDD のストレージ レベルの値を、計算後に操作全体で永続するように設定 |
| toDebugString | デバッグ用に RDD とその再帰的な依存関係の記述を取得 |
| unpersist | RDD を非永続としてマークし、それに関連するすべてのブロックをメモリとディスクから削除 |
詳細
参考文献
詳細については、Spark の最新のドキュメンテーションを参照してください。
バージョン履歴
R2016b で導入