Main Content

MATLAB の map 関数および reduce 関数を Hadoop ジョブに組み込むワークフロー

  1. MATLAB® でマッパーおよびリデューサー関数を作成します。

  2. MAT ファイルを作成し、解析するデータの構造と変数の名前を記すデータ ストアを含めます。MAT ファイル内のデータ ストアは、実際のデータセットを表すテスト データセットから作成できます。

  3. マッパーやリデューサーの名前、解析するデータの型などの Hadoop® 設定を含んだテキスト ファイルを作成します。Hadoop コンパイラ アプリを使用している場合、このファイルは自動的に作成されます。

  4. Hadoop コンパイラ アプリまたは mcc コマンドを使用して、コンポーネントを配布可能なアーカイブにパッケージ化します。いずれのオプションでも、配布可能なアーカイブ (.ctf ファイル) が生成され、これは Hadoop mapreduce ジョブに組み込むことができます。

  5. hadoop のコマンドおよび構文を使用して、配布可能なアーカイブを Hadoop mapreduce ジョブに組み込みます。

    実行シグネチャ

    キー

    文字説明
    AHadoop コマンド
    BJAR オプション
    CJAR ファイルの標準名。すべてのアプリケーションで同じ JAR、mwmapreduce.jar を使用します。この JAR へのパスも、MATLAB Runtime の場所と相対的に固定されています。
    Dドライバーの標準名。すべてのアプリケーションで同じドライバー名 MWMapReduceDriver を使用します。
    EMATLAB Runtime の場所をキーと値のペアとして指定するジェネリック オプション。
    FHadoop コンパイラ アプリまたは mcc によって生成された配布可能なアーカイブ (.ctf ファイル) が、ペイロード引数としてジョブに渡されます。
    G入力ファイルの HDFS™ での場所。
    H出力ファイルを書き込むことができる HDFS 上の場所。

配布可能なアーカイブ (.ctf ) の Hadoop mapreduce ジョブへの組み入れを簡略化するために、Hadoop コンパイラ アプリと mcc コマンドの両方が、配布可能なアーカイブと共にシェル スクリプトを生成します。シェル スクリプトには、run_<deployableArchiveName>.sh という命名規則があります。

シェル スクリプトを使用して配布可能なアーカイブを実行するには、次の構文を使用します。

関連するトピック