MapReduce

メモリに収まらないデータセットを解析するプログラミング手法

mapreduce は、コンピューターのメモリに収まらない大きなデータセットの解析に適したプログラミング手法です。datastore を使用してデータを小さなチャンクで処理するこの手法は、データの書式設定や前処理となる計算を行う Map フェーズと、Map フェーズからのすべての結果を集約する Reduce フェーズから構成されています。詳細は、MapReduce 入門を参照してください。

他の製品での mapreduce の使用の詳細については、その他の製品を使用した MapReduce の高速化と展開を参照してください。

関数

すべて展開する

一般

`mapreduce`	メモリに収まらないデータセットを解析するプログラミング手法
`datastore`	データの大規模な集合用のデータストアを作成

補助オブジェクトメソッド

`add`	キーと値の 1 つのペアを KeyValueStore に追加
`addmulti`	キーと値の複数のペアを KeyValueStore に追加
`hasnext`	ValueIterator に 1 つ以上の使用可能な値があるかどうかを判別
`getnext`	ValueIterator からの次の値の取得

実行環境

`mapreducer`	mapreduce または tall 配列の実行環境の定義
`gcmr`	現在の mapreducer 構成の取得

オブジェクト

`KeyValueStore`	キーと値のペアを保存して mapreduce で使用
`ValueIterator`	mapreduce と使用する中間値における反復子

トピック

MapReduce 入門
MapReduce プログラミング手法について学習し、例の計算を実行します。
map 関数の作成
mapreduce アルゴリズムで使用する map 関数を作成します。
reduce 関数の作成
mapreduce アルゴリズムで使用する reduce 関数を作成する。
その他の製品を使用した MapReduce の高速化と展開
mapreduce アルゴリズムを高速化し共有するための他製品の機能。

トラブルシューティング

MapReduce アルゴリズムのデバッグ

この例では、MATLAB^® で mapreduce アルゴリズムをデバッグする方法について説明します。デバッグにより、mapreduce 実行の異なるフェーズ間のデータの移動に従い、すべての中間変数の状態を検査できます。

注目の例

MapReduce を使用した MATLAB でのビッグデータの解析

この例では、関数 mapreduce を使用して、ファイルベースのデータを大量に処理する方法を説明します。MapReduce アルゴリズムは、現在の多くの "ビッグデータ" アプリケーションの主軸となっています。この例では単一のコンピューターで処理が行われますが、コードは Hadoop® を使用するようにスケールアップできます。

ライブスクリプトを開く

MapReduce を使用した最大値の検索

次の例では、mapreduce を使用してデータセット内の単独の変数の最大値を検索する方法を示します。キーは 1 つのみで最低限の計算を行うため、これは mapreduce の最も簡単な使用法を示しています。

ライブスクリプトを開く

MapReduce による平均値の計算

この例では、mapreduce を使用してデータセット内で単一の変数の平均を計算する方法を示します。mapreduce を、単一のキー、最低限の計算および中間状態 (中間合計およびカウントの累積) で使用する簡単な方法を示します。

ライブスクリプトを開く

MapReduce を使用するヒストグラムの作成

次の例は、大規模なデータセット内のパターンを、すべての観測値を同時にメモリに読み込まずに可視化する方法を示します。グラフィックスを生成するのに十分な、容量の少ないデータの要約を計算する方法を示します。

ライブスクリプトを開く

MapReduce を使用するグループごとの平均の計算

この例では、mapreduce を使用してデータセット内のグループごとの平均を計算する方法を示します。データのサブグループに対する計算の実行方法を示しています。

ライブスクリプトを開く

MapReduce を使用する簡単なデータのサブセット化

次の例では、大規模なデータセットのサブセットを抽出する方法を示します。

ライブスクリプトを開く

MapReduce を使用して共分散および関連量を計算する

この例では、mapreduce を使用して大規模なデータセット内のいくつかの変数の平均と共分散を計算する方法を示します。次に、共分散を使用していくつかの追跡計算を実行しますが、このときデータセット全体に対して繰り返す必要はありません。

ライブスクリプトを開く

MapReduce を使用してグループごとの要約統計量を計算する

この例では、mapreduce を使用して、グループごとに整理された要約統計量を計算する方法を示します。無名関数を使用して、パラメーター化された map 関数に追加のグループ化パラメーターを渡す方法も示します。このパラメーター化により、別のグループ化変数を使用して迅速に統計を再計算できます。

ライブスクリプトを開く

MapReduce を使用するロジスティック回帰モデルの近似

この例では、mapreduce を使用して、単一の予測子を使用して簡単なロジスティック回帰を実行する方法を示します。複数の mapreduce 呼び出しを連結して反復アルゴリズムを実行する方法も示します。各反復では独立したデータパスが必要なため、無名関数は 1 つの反復から次の反復に情報を渡して、マッパーに直接情報を提供します。

ライブスクリプトを開く