メインコンテンツ

coalesce

クラス: matlab.compiler.mlspark.RDD
名前空間: matlab.compiler.mlspark

RDD 内のパーティション数の削減

構文

result = coalesce(obj,numPartitions,doShuffle)

説明

result = coalesce(obj,numPartitions,doShuffle) は、RDD 内のパーティション数を numPartitions で指定された数に削減します。

入力引数

すべて展開する

入力 RDD。RDD オブジェクトとして指定します。

作成するパーティションの数。スカラー値として指定します。

データ型: double

シャッフルを実行する必要があるかどうかを指定します。既定では、doShufflefalse に設定されています。

データ型: logical

出力引数

すべて展開する

パーティション数を削減した RDD。RDD オブジェクトとして返されます。

すべて展開する

%% Connect to Spark
sparkProp = containers.Map({'spark.executor.cores'}, {'1'});
conf = matlab.compiler.mlspark.SparkConf('AppName','myApp', ...
                        'Master','local[1]','SparkProperties',sparkProp);
sc = matlab.compiler.mlspark.SparkContext(conf);

%% coalesce
inputRDD = sc.parallelize({'A','B','C','A','B'},2);
redRDD= inputRDD.map(@(x)({x,1})).reduceByKey(@(x,y)(x+y),3);
coaRDD = redRDD.checkpoint(2);
viewRes = coaRDD.glom.collect() % {{{'B',2}},{{'C',1},{'A',2}}}

バージョン履歴

R2016b で導入