Main Content

MATLAB の map 関数および reduce 関数を Hadoop ジョブに組み込むワークフロー

  1. MATLAB® でマッパーおよびリデューサー関数を作成します。

  2. MAT ファイルを作成し、解析するデータの構造と変数の名前を記すデータ ストアを含めます。MAT ファイル内のデータ ストアは、実際のデータセットを表すテスト データセットから作成できます。

  3. マッパーやリデューサーの名前、解析するデータの型などの Hadoop® 設定を含んだテキスト ファイルを作成します。Hadoop コンパイラ アプリを使用している場合、このファイルは自動的に作成されます。

  4. Hadoop コンパイラ アプリまたは mcc コマンドを使用して、コンポーネントをデプロイ可能なアーカイブにパッケージ化します。いずれのオプションでも、デプロイ可能なアーカイブ (.ctf ファイル) が生成され、これは Hadoop mapreduce ジョブに組み込むことができます。

  5. hadoop のコマンドおよび構文を使用して、デプロイ可能なアーカイブを Hadoop mapreduce ジョブに組み込みます。

    実行シグネチャ

    キー

    文字説明
    AHadoop コマンド
    BJAR オプション
    CJAR ファイルの標準名。すべてのアプリケーションで同じ JAR、mwmapreduce.jar を使用します。この JAR へのパスも、MATLAB Runtime の場所と相対的に固定されています。
    Dドライバーの標準名。すべてのアプリケーションで同じドライバー名 MWMapReduceDriver を使用します。
    EMATLAB Runtime の場所をキーと値のペアとして指定するジェネリック オプション。
    FHadoop コンパイラ アプリまたは mcc によって生成されたデプロイ可能なアーカイブ (.ctf ファイル) が、ペイロード引数としてジョブに渡されます。
    G入力ファイルの HDFS™ での場所。
    H出力ファイルを書き込むことができる HDFS 上の場所。

デプロイ可能なアーカイブ (.ctf ) の Hadoop mapreduce ジョブへの組み入れを簡略化するために、Hadoop コンパイラ アプリと mcc コマンドの両方が、デプロイ可能なアーカイブと共にシェル スクリプトを生成します。シェル スクリプトには、run_<deployableArchiveName>.sh という命名規則があります。

シェル スクリプトを使用してデプロイ可能なアーカイブを実行するには、次の構文を使用します。

関連するトピック