MATLAB の map 関数および reduce 関数を Hadoop ジョブに組み込むワークフロー
MATLAB® でマッパーおよびリデューサー関数を作成します。
MAT ファイルを作成し、解析するデータの構造と変数の名前を記すデータ ストアを含めます。MAT ファイル内のデータ ストアは、実際のデータセットを表すテスト データセットから作成できます。
マッパーやリデューサーの名前、解析するデータの型などの Hadoop® 設定を含んだテキスト ファイルを作成します。Hadoop コンパイラ アプリを使用している場合、このファイルは自動的に作成されます。
Hadoop コンパイラ アプリまたは
mcc
コマンドを使用して、コンポーネントをデプロイ可能なアーカイブにパッケージ化します。いずれのオプションでも、デプロイ可能なアーカイブ (.ctf ファイル) が生成され、これは Hadoop mapreduce ジョブに組み込むことができます。hadoop
のコマンドおよび構文を使用して、デプロイ可能なアーカイブを Hadoop mapreduce ジョブに組み込みます。実行シグネチャ
キー
文字 説明 A Hadoop コマンド B JAR オプション C JAR ファイルの標準名。すべてのアプリケーションで同じ JAR、 mwmapreduce.jar
を使用します。この JAR へのパスも、MATLAB Runtime の場所と相対的に固定されています。D ドライバーの標準名。すべてのアプリケーションで同じドライバー名 MWMapReduceDriver
を使用します。E MATLAB Runtime の場所をキーと値のペアとして指定するジェネリック オプション。 F Hadoop コンパイラ アプリまたは mcc
によって生成されたデプロイ可能なアーカイブ (.ctf
ファイル) が、ペイロード引数としてジョブに渡されます。G 入力ファイルの HDFS™ での場所。 H 出力ファイルを書き込むことができる HDFS 上の場所。
デプロイ可能なアーカイブ (.ctf
) の Hadoop mapreduce ジョブへの組み入れを簡略化するために、Hadoop コンパイラ アプリと mcc
コマンドの両方が、デプロイ可能なアーカイブと共にシェル スクリプトを生成します。シェル スクリプトには、run_<deployableArchiveName>.sh
という命名規則があります。
シェル スクリプトを使用してデプロイ可能なアーカイブを実行するには、次の構文を使用します。