MapReduce フレームワークと Hadoop を使用した大規模なイメージセットの処理

ライブスクリプトを開く

この例では、Image Processing Toolbox™ と共に MATLAB® の MapReduce およびデータストアを使用して、大量のイメージに対して細胞カウントアルゴリズムを実行する方法を説明します。MapReduce とは、メモリに収まらないデータセットを解析するプログラミング手法です。また、この例では MATLAB Parallel Server™ を使用して、並列 MapReduce プログラムを Hadoop® クラスターで実行します。この例では、Hadoop クラスターにアルゴリズムを移動する前に、一部のイメージについてローカルシステムでアルゴリズムをテストする方法を説明します。

サンプルデータのダウンロード

Broad Bioimage Benchmark Collection から BBBC005v1 データセットをダウンロードします。このデータセットはテストや検証のために作られている注釈の付いた生体イメージセットです。このイメージセットでは合焦点および焦点外の合成イメージの例が提供されており、フォーカスメトリクスの検証に使用できます。データセットには約 2 万ファイルが格納されています。詳細については、こちらの Introduction to the Data Set を参照してください。

Linux® システムのシステムプロンプトで wget コマンドを使用し、BBBC データセットを格納している zip ファイルをダウンロードします。このコマンドを実行する前に、zip ファイル (1.8 GB) と解凍したイメージ (2.6 GB) を十分保持できるスペースがターゲットの場所にあることを確認してください。

wget https://data.broadinstitute.org/bbbc/BBBC005/BBBC005_v1_images.zip

Linux システムのシステムプロンプトで zip ファイルからファイルを解凍します。

unzip BBBC005_v1_images.zip

このデータセット内のイメージファイル名を確認してください。この名前は、各イメージについての有効な情報を含んだ特定の形式で構成されています。たとえば、BBBC005_v1_images/SIMCEPImages_A05_C18_F1_s16_w1.TIF というファイル名は、イメージに 18 個の細胞 (C18) が含まれており、焦点のブレのシミュレーションを行うために直径が 1、シグマが直径の 0.25 倍のガウスローパスフィルターでフィルター処理された (F1) ことを示しています。w1 は使用された染色を識別します。たとえば、w1 染色を使用するデータセット内のイメージの数を特定します。

d = dir('C:\Temp\BBBCdata\BBBC005_v1_images\*w1*');
numel(d)

ans = 9600

サンプルイメージでのアルゴリズムのテスト

イメージのバッチ処理アプリを使用して BBBC データセット内のファイルを表示し、少量のファイルのサブセットでアルゴリズムをテストします。この例はイメージ内の細胞をセグメント化する簡単なアルゴリズムをテストします (この例では、この細胞セグメンテーションアルゴリズムを変更したバージョンを使用して、MapReduce の実装で使用する細胞カウントアルゴリズムを作成します)。

イメージのバッチ処理アプリへのイメージファイルの読み込み

"イメージのバッチ処理" アプリを開きます。MATLAB のツールストリップの [アプリ] タブにある [イメージ処理とコンピュータービジョン] セクションで、[イメージのバッチ処理] をクリックします。imageBatchProcessor コマンドを使用して、コマンドラインからアプリを開くこともできます。

"イメージのバッチ処理" アプリで、[イメージのインポート] をクリックし、ダウンロードしたデータセットが格納されているフォルダーに移動します。

"イメージのバッチ処理" アプリでは、フォルダー内にあるイメージのサムネイルが左ペインに表示され、[入力イメージ] タブには現在選択中のイメージの高解像度バージョンが表示されます。イメージをいくつか表示して、データセットについての理解を深めます。

ProcessFolderOfImagesUsingTheImageBatchProcessorAppeExample_04.png

セグメンテーション関数の指定

細胞セグメンテーションアルゴリズムを実装する関数の名前を指定します。既存の関数を指定するには、[関数名] フィールドに名前を入力するか、フォルダーアイコンをクリックして参照し、関数を選択します。新しいバッチ処理関数を作成するには、[作成] をクリックします。MATLAB® エディターでバッチ関数テンプレートが開きます。この例では、以下のイメージセグメンテーションコードを含む新しい関数を作成します。[保存] をクリックしてバッチ関数を作成します。アプリが更新され、アプリのツールストリップの [バッチ関数] セクションに、作成した関数の名前が表示されます。

function imout = cellSegmenter(im)  % A simple cell segmenter 
    % Otsu thresholding
    bw = imbinarize(im);
    
    % Show thresholding result in app
    imout = imfuse(im,bw);
    
    % Find area of blobs
    stats = regionprops('table',bw,{'Area'});
    
    % Average cell diameter is about 33 pixels (based on random inspection)
    cellArea = pi*(33/2)^2;
    
    % Estimate cell count based on area of blobs
    cellsPerBlob = stats.Area/cellArea;
    cellCount = sum(round(cellsPerBlob));
    disp(cellCount);
end

サンプルイメージでのセグメンテーション関数のテスト

アプリに表示されたイメージのサムネイルを選択し、[選択対象を処理] をクリックしてアルゴリズムのテストを実行します。この例では、"w1" 染色 (ファイル名で識別可) を含むイメージのみを選択します。セグメンテーションアルゴリズムはこれらのイメージに最適です。

アルゴリズムの実行結果を調べ、セグメンテーションアルゴリズムでイメージ内の細胞の数が正確に検出されたことを確認します。イメージの名前には C の数字により細胞数が示されています。たとえば、SIMCEPImages_A05_C18_F1_s05_w1.TIF という名前のイメージには 18 個の細胞が含まれています。この個数とコマンドラインに返されたサンプルイメージの結果を比較します。

MapReduce フレームワークでのアルゴリズムのローカルテスト

作成したセグメンテーションコードが 1 つのイメージで期待どおりに動作することを確認したら、大規模な処理の実行にあたり、小規模なテストバージョンをローカルシステムで設定します。大量のファイルで実行する前に、処理フレームワークをテストする必要があります。

イメージデータストアへのイメージファイルの読み込み

まず、関数imageDatastoreを使用して、イメージの小規模なサブセットを含むイメージデータストアを作成します。MapReduce は、データストアを使用して、メモリに収まる小さいチャンクごとにデータを処理します。イメージが格納されているフォルダーに移動し、イメージデータストアを作成します。cellSegmenter.m に実装される細胞セグメンテーションアルゴリズムは細胞体染色で最適に機能するため、ファイル名のインジケーターが w1 のファイルのみを選択します。

localimds = imageDatastore(fullfile('/your_data/broad_data/BBBC005_v1-images','*w1*'));

ファイル名に "w1" が含まれるファイルに限定して選択する場合でも、イメージデータストアにはまだ 9000 個を超えるファイルが含まれています。データセットに含まれる大量のファイルから 100 個ごとにファイルを選択し、イメージのリストのサブセットを絞り込みます。

localimds.Files = localimds.Files(1:100:end);

Hadoop シーケンスファイルへのサンプルセットの再パッケージ化

イメージデータストアを作成したら、イメージのサブセットのサンプルを、Hadoop クラスターで使用される形式である Hadoop シーケンスファイルに変換します。この手順は、あるストレージ形式から別の形式にデータを変更するだけでデータ値は変更されません。シーケンスファイルの詳細については、MapReduce 入門を参照してください。

イメージデータストアを Hadoop シーケンスファイルに変換するには、関数 mapreduce に渡す "map" 関数および "reduce" 関数を作成します。イメージファイルを Hadoop シーケンスファイルに変換するには、map 関数をノーオペレーション関数にする必要があります。この例では、map 関数はファイル名をキーとして使用し、イメージデータをそのまま単純に保存します。

function identityMap(data, info, intermKVStore)
     add(intermKVStore, info.Filename, data);
end

reduce 関数を作成します。この関数は、イメージファイルをシーケンスファイルのキーと値のデータストアに変換します。

function identityReduce(key, intermValueIter, outKVStore)
    while hasnext(intermValueIter)
        add(outKVStore, key, getnext(intermValueIter));
    end
end

mapreduce を呼び出し、map 関数と reduce 関数を渡します。この例では、まず関数 mapreducer を呼び出し、処理の場所を指定します。ローカルシステムで設定をテストして処理を実行するには、0 を指定します

mapreducer(0);

ローカルで実行すると、mapreduce は MAT ファイルのキーと値のデータストアを作成します。

localmatds = mapreduce(localimds,@identityMap,@identityReduce,'OutputFolder',pwd);

MapReduce フレームワークのローカルテスト

イメージファイルのサブセットをテスト用に作成し、キーと値のデータストアに変換したら、いつでもアルゴリズムをテストできます。元の細胞セグメンテーションアルゴリズムを、細胞数を返すように変更します(この例で最初にアルゴリズムをテストした、イメージのバッチ処理アプリは、処理されたイメージのみを返し、細胞数などの値を返すことができません)。

細胞数を返し、イメージの表示を削除するように、細胞セグメンテーション関数を変更します。

function cellCount = cellCounter(im)
    % Otsu thresholding
    bw = imbinarize(im);
   
    % Find area of blobs
    stats = regionprops('table',bw,{'Area'});
    
    % Average cell diameter is about 33 pixels (based on random inspection)
    cellArea = pi*(33/2)^2;
    
    % Estimate cell count based on area of blobs
    cellsPerBlob = stats.Area/cellArea;
    cellCount = sum(round(cellsPerBlob));
end

特定のイメージのエラー数を計算する map 関数を作成します。この関数はファイル名のコーディング (C の数字) からイメージの実際の細胞数を取得し、セグメンテーションアルゴリズムで返された細胞数と比較します。

function mapImageToMisCountError(data, ~, intermKVStore)
    % Extract the image
    im = data.Value{1};
    % Call the cell counting algorithm
    actCount = cellCounter(im);
    % The original file name is available as the key
    fileName = data.Key{1};
    [~, name] = fileparts(fileName);
    % Extract expected cell count and focus blur from the file name
    strs = strsplit(name, '_'); 
    expCount  = str2double(strs{3}(2:end)); 
    focusBlur = str2double(strs{4}(2:end)); 
    diffCount = abs(actCount-expCount);
    % Note: focus blur is the key 
    add(intermKVStore, focusBlur, diffCount);
end

フォーカス値ごとに細胞数のエラー平均値を計算する reduce 関数を作成します。

function reduceErrorCount(key, intermValueIter, outKVStore)
    focusBlur = key;
    % Compute the sum of all differences in cell count for this value of
    % focus blur
    count = 0;
    totalDiff = 0;
    while hasnext(intermValueIter)
        diffCount = getnext(intermvalueIter);
        count = count + 1;
        totalDiff = totalDiff+diffCount;
    end
    % Average
    meanDiff = totalDiff/count;
    add(outKVStore, focusBlue, meanDiff);
end

mapreduce ジョブをローカルシステムで実行します。

focusErrords = mapreduce(localmatds,@mapImageToMisCountError,@reduceErrorCount);

結果を収集します。

focusErrorTbl = readall(focusErrords);

誤差の平均値を取得します。

averageErrors = cell2mat(focusErrorTbl.Value);

ここで使用する簡単な細胞カウントアルゴリズムは、細胞または細胞群の平均の面積に依存します。焦点のブレが大きくなると、細胞の境界が拡散するため、面積も広がります。結果のプロットに見られるように、焦点のブレが大きくなると、誤差が増加するという結果が予測されます。

function plot_errors()
bar(focusErrorTbl.Key, averageErrors);
ha = gca;
ha.XTick = sort(focusErrorTbl.Key);
ha.XLim  = [min(focusErrorTbl.Key)-2 max(focusErrorTbl.Key)+2];
title('Cell counting result on a test data set');
xlabel('Focus blur');
ylabel('Average error in cell count');
end

Hadoop クラスターでの MapReduce フレームワークの実行

データのサブセットに対してアルゴリズムの処理を検証したところで、Hadoop クラスターで全データセットに対してアルゴリズムを実行します。

Hadoop ファイルシステムへのデータの読み込み

すべてのイメージデータを Hadoop ファイルシステムに読み込み、次のシェルコマンドを使用して MapReduce フレームワークを Hadoop クラスターで実行します。このコマンドを実行するには、your_data をお使いのコンピューター上の場所に置き換えます。

hadoop fs -mkdir /user/broad_data/

hadoop fs -copyFromLocal /your_data/broad_data/BBBC005_v1_images /user/broad_data/BBBC005_v1_images

MATLAB Parallel Server クラスターへのアクセスの設定

MATLAB Parallel Server クラスターへのアクセスを設定します。このコマンドを実行するには、'your/hadoop/install' をお使いのコンピューター上の場所に置き換えます。

setenv('HADOOP_HOME','/your/hadoop/install');

cluster = parallel.cluster.Hadoop;

cluster.HadoopProperties('mapred.job.tracker') = 'hadoop01glnxa64:54311';

cluster.HadoopProperties('fs.default.name') = 'hdfs://hadoop01glnxa64:54310';

disp(cluster);

Mapreduce 実行環境のリモートクラスターへの変更

mapreduce 実行環境を、リモートクラスターを指すように変更します。

mapreducer(cluster);

すべてのイメージデータの Hadoop シーケンスファイルへの変換

すべてのイメージデータを Hadoop シーケンスファイルに変換します。これは、プロトタイピング用のイメージのサブセットを変換したときにローカルシステムで実行した内容と同様のものです。前に使用した map 関数と reduce 関数を再利用できます。内部 Hadoop クラスターを使用します。

broadFolder = 'hdfs://hadoop01glnxa64:54310/user/broad_data/BBBC005_v1_images';

処理する細胞体染色 (w1) のファイルのみを選択します。

w1Files = fullfile(broadFolder,'*w1*.TIF');

これらのファイルすべてを表す ImageDatastore を作成します。

imageDS = imageDatastore(w1Files);

出力フォルダーを指定します。

seqFolder = 'hdfs://hadoop01glnxa64:54310/user/datasets/images/broad_data/broad_sequence';

イメージをキーと値のデータストアに変換します。

seqds = mapreduce(imageDS,@identityMap,@identityReduce,'OutputFolder',seqFolder);

データセット全体での細胞カウントアルゴリズムの実行

MapReduce フレームワークを使用して、Hadoop ファイルシステムに格納されたデータセット全体に細胞カウントアルゴリズムを実行します。この場合、入力位置と出力位置が Hadoop ファイルシステムになるという点が、ローカルシステムでフレームワークを実行する場合と唯一異なります。

まず、誤差数の出力位置を指定します。

output = 'hdfs://hadoop01glnxa64:54310/user/broad_data/BBBC005_focus_vs_errorCount';

Mapreduce フレームワークでアルゴリズムを実行します。関数 tic および関数 toc を使用して、イメージセットの処理にかかる時間を記録します。

tic

focusErrords = mapreduce(seqds,@mapImageToMisCountError,@reduceErrorCount,'OutputFolder',output);

toc

結果を収集します。

focusErrorTbl = readall(focusErrords);

averageErrors = cell2mat(focusErrorTbl.Value);

前と同様に結果をプロットします。

function reduceErrorCountAll(key, intermValueIter, outKVStore)
    bar(focusErrorTbl.Key, averageErrors);
    ha = gca;
    ha.XTick = sort(focusErrorTbl.Key);
    ha.XLim  = [min(focusErrorTbl.Key)-2 max(focusErrorTbl.Key)+2];
    title('Cell counting result on the entire data set');
    xlabel('Focus blur');
    ylabel('Average error in cell count');
end

参考

ImageDatastore | mapreduce

MapReduce フレームワークと Hadoop を使用した大規模なイメージ セットの処理

サンプル データのダウンロード

サンプル イメージでのアルゴリズムのテスト

イメージのバッチ処理アプリへのイメージ ファイルの読み込み

セグメンテーション関数の指定

サンプル イメージでのセグメンテーション関数のテスト

MapReduce フレームワークでのアルゴリズムのローカル テスト

イメージ データストアへのイメージ ファイルの読み込み

Hadoop シーケンス ファイルへのサンプル セットの再パッケージ化

MapReduce フレームワークのローカル テスト