深層学習を使用したニューラルスタイル転送

この例では次を使用します。

この例では、事前学習済みの VGG-19 ネットワークを使用して、あるイメージのスタイル外観を別のイメージのシーンコンテンツに適用する方法を説明します。

データの読み込み

スタイルイメージとコンテンツイメージを読み込みます。この例では、ファン・ゴッホの有名な絵画 "星月夜" をスタイルイメージとして使用し、灯台の写真をコンテンツイメージとして使用します。

styleImage = im2double(imread("starryNight.jpg"));
contentImage = imread("lighthouse.png");

スタイルイメージとコンテンツイメージをモンタージュとして表示します。

imshow(imtile({styleImage,contentImage},BackgroundColor="w"));

特徴抽出ネットワークの読み込み

この例では、事前学習済みの VGG-19 深層ニューラルネットワークに変更を加えたものを使用して、コンテンツイメージとスタイルイメージの特徴をさまざまな層で抽出します。この多層にわたる特徴は、コンテンツとスタイルの損失を計算するのに使用されます。このネットワークは、組み合わされた損失を使用して、スタイル化された転送イメージを生成します。

事前学習済みの VGG-19 ネットワークを取得するには、関数 imagePretrainedNetwork を使用します。VGG-19 には、Deep Learning Toolbox™ Model for VGG-19 Network サポートパッケージが必要です。このサポートパッケージがインストールされていない場合、関数によってダウンロード用リンクが表示されます。

net = imagePretrainedNetwork("vgg19");

VGG-19 ネットワークを特徴抽出に適したネットワークにするには、全結合層をネットワークからすべて削除します。

lastFeatureLayerIdx = 38;
layers = net.Layers;
layers = layers(1:lastFeatureLayerIdx);

VGG-19 ネットワークの最大プーリング層は、フェージング効果を引き起こします。フェージング効果を減らして勾配フローを増やすには、すべての最大プーリング層を平均プーリング層に置き換えます [1]。

for l = 1:lastFeatureLayerIdx
    layer = layers(l);
    if isa(layer,"nnet.cnn.layer.MaxPooling2DLayer")
        layers(l) = averagePooling2dLayer( ...
            layer.PoolSize,Stride=layer.Stride,Name=layer.Name);
    end
end

特徴抽出ネットワークをプロットで可視化します。

plot(net)
title("Feature Extraction Network")

データの前処理

より高速に処理できるように、スタイルイメージとコンテンツイメージのサイズを小さくします。

imageSize = [384,512];
styleImg = imresize(styleImage,imageSize);
contentImg = imresize(contentImage,imageSize);

事前学習済みの VGG-19 ネットワークは、チャネル単位の平均値を減算したイメージで分類を実行します。イメージ入力層 (ネットワークの最初の層) から、チャネル単位の平均値を取得します。

imgInputLayer = net.Layers(1);
meanVggNet = imgInputLayer.Mean(1,1,:);

チャネル単位の平均値は、ピクセル値の範囲が [0, 255] である浮動小数点データ型のイメージに適しています。スタイルイメージとコンテンツイメージを、範囲が [0, 255] であるデータ型 single に変換します。その後、スタイルイメージとコンテンツイメージからチャネル単位の平均値を減算します。

styleImg = rescale(single(styleImg),0,255) - meanVggNet;
contentImg = rescale(single(contentImg),0,255) - meanVggNet;

転送イメージの初期化

転送イメージは、スタイル転送の結果として得られる出力イメージです。この転送イメージは、スタイルイメージ、コンテンツイメージ、または任意のランダムイメージを使用して初期化できます。スタイルイメージまたはコンテンツイメージを使用して初期化すると、スタイル転送処理にバイアスがかけられ、転送イメージは入力イメージに似たものになります。それに対し、ホワイトノイズを使用して初期化すると、バイアスが除去されますが、スタイル化されたイメージに収束するまで時間がかかります。この例では、より優れたスタイル化とより高速な収束を実現するため、コンテンツイメージとホワイトノイズイメージの重み付けされた組み合わせとして出力転送イメージを初期化します。

noiseRatio = 0.7;
randImage = randi([-20,20],[imageSize 3]);
transferImage = noiseRatio.*randImage + (1-noiseRatio).*contentImg;

損失関数とスタイル転送パラメーターの定義

コンテンツ損失

コンテンツ損失の目的は、転送イメージの特徴をコンテンツイメージの特徴に一致させることです。コンテンツ損失は、各コンテンツ特徴層におけるコンテンツイメージの特徴と転送イメージの特徴との間の平均二乗差として計算されます [1]。 $Y_{}^{ˆ}$ は転送イメージについて予測された特徴マップで、 $Y$ はコンテンツイメージについて予測された特徴マップです。 $W_{c}^{l}$ は、 $l^{t h}$ 番目の層におけるコンテンツ層の重みです。 $H, W, C$ はそれぞれ、特徴マップの高さ、幅、チャネル数です。

$L_{c o n t e n t} = \sum_{l} W_{c}^{l} \times \frac{1}{H W C} \sum_{i, j} ({Y_{}^{ˆ}}_{i, j}^{l} - Y_{i, j}^{l})^{2}$

コンテンツ特徴抽出層の名前を指定します。これらの層から抽出された特徴は、コンテンツ損失の計算に使用されます。VGG-19 ネットワークでは、浅層から抽出された特徴を使用するよりも、深い層から抽出された特徴を使用するほうがより効果的です。そのため、コンテンツ特徴抽出層を 4 番目の畳み込み層として指定します。

styleTransferOptions.contentFeatureLayerNames = "conv4_2";

コンテンツ特徴抽出層の重みを指定します。

styleTransferOptions.contentFeatureLayerWeights = 1;

スタイル損失

スタイル損失の目的は、転送イメージのテクスチャをスタイルイメージのテクスチャに一致させることです。イメージのスタイル表現は、グラム行列として表されます。そのため、スタイル損失は、スタイルイメージのグラム行列と転送イメージのグラム行列との間の平均二乗差として計算されます [1]。 $Z$ と $Z_{}^{ˆ}$ はそれぞれ、スタイルイメージと転送イメージについて予測された特徴マップです。 $G_{Z}$ と $G_{Z_{}^{ˆ}}$ はそれぞれ、スタイルイメージの特徴量と転送イメージの特徴量に関するグラム行列です。 $W_{s}^{l}$ は、 $l^{t h}$ 番目の層におけるスタイル層の重みです。

$G_{Z_{}^{ˆ}} = \sum_{i, j} {Z_{}^{ˆ}}_{i, j} \times {Z_{}^{ˆ}}_{j, i}$

$G_{Z} = \sum_{i, j} Z_{i, j} \times Z_{j, i}$

$L_{s t y l e} = \sum_{l} W_{s}^{l} \times \frac{1}{(2 H W C)^{2}} \sum (G_{Z_{}^{ˆ}}^{l} - G_{Z}^{l})^{2}$

スタイル特徴抽出層の名前を指定します。これらの層から抽出された特徴は、スタイル損失の計算に使用されます。

styleTransferOptions.styleFeatureLayerNames = [ ...
    "conv1_1","conv2_1","conv3_1","conv4_1","conv5_1"];

スタイル特徴抽出層の重みを指定します。単純なスタイルイメージの場合は小さな重みを指定し、複雑なスタイルイメージの場合は重みを増やします。

styleTransferOptions.styleFeatureLayerWeights = [0.5,1.0,1.5,3.0,4.0];

合計損失

合計損失は、コンテンツ損失とスタイル損失が重み付けされて組み合わされたものです。 $α$ と $β$ はそれぞれ、コンテンツ損失とスタイル損失の重み係数です。

$L_{t o t a l} = α \times L_{c o n t e n t} + β \times L_{s t y l e}$

コンテンツ損失とスタイル損失の重み係数 alpha と beta を指定します。alpha と beta の比は、約 1e-3 または 1e-4 でなければなりません [1]。

styleTransferOptions.alpha = 1; 
styleTransferOptions.beta = 1e3;

学習オプションの指定

2500 回反復して学習させます。

numIterations = 2500;

Adam 最適化のオプションを指定します。より早く収束するように、学習率を 2 に設定します。出力イメージと損失を観測することで、学習率を試すことができます。最後の平均勾配と最後の平均 2 乗勾配減衰率を [] に初期化します。

learningRate = 2;
trailingAvg = [];
trailingAvgSq = [];

ネットワークの学習

スタイルイメージ、コンテンツイメージ、および転送イメージを、基となる型が single で次元ラベルが "SSC" であるdlarray (Deep Learning Toolbox)オブジェクトに変換します。

dlStyle = dlarray(styleImg,"SSC");
dlContent = dlarray(contentImg,"SSC");
dlTransfer = dlarray(transferImage,"SSC");

GPU が利用できる場合、GPU で学習を行います。GPU を使用するには、Parallel Computing Toolbox™、および CUDA® 対応の NVIDIA® GPU が必要です。詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。GPU での学習用に、データを gpuArray に変換します。

if canUseGPU
    dlContent = gpuArray(dlContent);
    dlStyle = gpuArray(dlStyle);
    dlTransfer = gpuArray(dlTransfer);
end

コンテンツイメージからコンテンツの特徴を抽出します。

numContentFeatureLayers = numel(styleTransferOptions.contentFeatureLayerNames);
contentFeatures = cell(1,numContentFeatureLayers);
[contentFeatures{:}] = forward(net,dlContent, ...
    Outputs=styleTransferOptions.contentFeatureLayerNames);

スタイルイメージからスタイルの特徴を抽出します。

numStyleFeatureLayers = numel(styleTransferOptions.styleFeatureLayerNames);
styleFeatures = cell(1,numStyleFeatureLayers);
[styleFeatures{:}] = forward(net,dlStyle, ...
    Outputs=styleTransferOptions.styleFeatureLayerNames);

カスタム学習ループを使用してモデルに学習させます。それぞれの反復で次を行います。

コンテンツイメージ、スタイルイメージ、および転送イメージの特徴量を使用して、コンテンツ損失とスタイル損失を計算します。損失と勾配を計算するには、補助関数 imageGradients を使用します (この例のサポート関数の節で定義されています)。
関数 adamupdate (Deep Learning Toolbox) を使用して、転送イメージを更新します。
最も優れたスタイル転送イメージを最終的な出力イメージとして選択します。

figure
minimumLoss = inf;

for iteration = 1:numIterations
    % Evaluate the transfer image gradients and state using dlfeval and the
    % imageGradients function listed at the end of the example
    [grad,losses] = dlfeval(@imageGradients,net,dlTransfer, ...
        contentFeatures,styleFeatures,styleTransferOptions);
    [dlTransfer,trailingAvg,trailingAvgSq] = adamupdate( ...
        dlTransfer,grad,trailingAvg,trailingAvgSq,iteration,learningRate);

    if losses.totalLoss < minimumLoss
        minimumLoss = losses.totalLoss;
        dlOutput = dlTransfer;        
    end   

    % Display the transfer image on the first iteration and after every 50
    % iterations. The postprocessing steps are described in the "Postprocess
    % Transfer Image for Display" section of this example
    if mod(iteration,50) == 0 || (iteration == 1)

        transferImage = gather(extractdata(dlTransfer));
        transferImage = transferImage + meanVggNet;
        transferImage = uint8(transferImage);
        transferImage = imresize(transferImage,size(contentImage,[1 2]));

        image(transferImage)
        title(["Transfer Image After Iteration ",num2str(iteration)])
        axis off image
        drawnow
    end   

end

転送イメージを表示するための後処理

更新された転送イメージを取得します。

transferImage = gather(extractdata(dlOutput));

ネットワークで学習した平均値を転送イメージに追加します。

transferImage = transferImage + meanVggNet;

ピクセルによっては、ピクセル値がコンテンツイメージとスタイルイメージの元の範囲 [0, 255] を超える場合があります。データ型を uint8 に変換することで、この値を [0, 255] の範囲にクリップすることができます。

transferImage = uint8(transferImage);

転送イメージのサイズを、コンテンツイメージの元のサイズに合わせて変更します。

transferImage = imresize(transferImage,size(contentImage,[1 2]));

コンテンツイメージ、転送イメージ、およびスタイルイメージをモンタージュに表示します。

imshow(imtile({contentImage,transferImage,styleImage}, ...
    GridSize=[1 3],BackgroundColor="w"));

サポート関数

イメージの損失と勾配の計算

補助関数 imageGradients は、コンテンツイメージ、スタイルイメージ、および転送イメージの特徴量を使用して、損失と勾配を返します。

function [gradients,losses] = imageGradients(net,dlTransfer, ...
    contentFeatures,styleFeatures,params)
 
    % Initialize transfer image feature containers
    numContentFeatureLayers = numel(params.contentFeatureLayerNames);
    numStyleFeatureLayers = numel(params.styleFeatureLayerNames);
 
    transferContentFeatures = cell(1,numContentFeatureLayers);
    transferStyleFeatures = cell(1,numStyleFeatureLayers);
 
    % Extract content features of transfer image
    [transferContentFeatures{:}] = forward(net,dlTransfer, ...
        Outputs=params.contentFeatureLayerNames);
     
    % Extract style features of transfer image
    [transferStyleFeatures{:}] = forward(net,dlTransfer, ...
        Outputs=params.styleFeatureLayerNames);
 
    % Calculate content loss
    cLoss = contentLoss(transferContentFeatures,contentFeatures, ...
        params.contentFeatureLayerWeights);
 
    % Calculate style loss
    sLoss = styleLoss(transferStyleFeatures,styleFeatures, ...
        params.styleFeatureLayerWeights);
 
    % Calculate final loss as weighted combination of content and style loss 
    loss = (params.alpha * cLoss) + (params.beta * sLoss);
 
    % Calculate gradient with respect to transfer image
    gradients = dlgradient(loss,dlTransfer);
    
    % Extract various losses
    losses.totalLoss = gather(extractdata(loss));
    losses.contentLoss = gather(extractdata(cLoss));
    losses.styleLoss = gather(extractdata(sLoss));
 
end

コンテンツ損失の計算

補助関数 contentLoss は、コンテンツイメージの特徴量と転送イメージの特徴量との間の重み付け平均二乗差を計算します。

function loss = contentLoss(transferContentFeatures,contentFeatures,contentWeights)

    loss = 0;
    for i=1:numel(contentFeatures)
        temp = 0.5 .* mean((transferContentFeatures{1,i}-contentFeatures{1,i}).^2,"all");
        loss = loss + (contentWeights(i)*temp);
    end
end

スタイル損失の計算

補助関数 styleLoss は、スタイルイメージの特徴量に関するグラム行列と転送イメージの特徴量に関するグラム行列との間の重み付け平均二乗差を計算します。

function loss = styleLoss(transferStyleFeatures,styleFeatures,styleWeights)

    loss = 0;
    for i=1:numel(styleFeatures)
        
        tsf = transferStyleFeatures{1,i};
        sf = styleFeatures{1,i};    
        [h,w,c] = size(sf);
        
        gramStyle = calculateGramMatrix(sf);
        gramTransfer = calculateGramMatrix(tsf);
        sLoss = mean((gramTransfer - gramStyle).^2,"all") / ((h*w*c)^2);
        
        loss = loss + (styleWeights(i)*sLoss);
    end
end

グラム行列の計算

補助関数 styleLoss は、補助関数 calculateGramMatrix を使用して特徴マップのグラム行列を計算します。

function gramMatrix = calculateGramMatrix(featureMap)
    [H,W,C] = size(featureMap);
    reshapedFeatures = reshape(featureMap,H*W,C);
    gramMatrix = reshapedFeatures' * reshapedFeatures;
end

参考文献

[1] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. "A Neural Algorithm of Artistic Style." Preprint, submitted September 2, 2015. https://arxiv.org/abs/1508.06576

参考

トピック

Get Started with GANs for Image-to-Image Translation
カスタム学習ループ、損失関数、およびネットワークの定義 (Deep Learning Toolbox)
カスタム学習ループでの学習オプションの指定 (Deep Learning Toolbox)
カスタム学習ループを使用したネットワークの学習 (Deep Learning Toolbox)
dlarray をサポートする関数の一覧 (Deep Learning Toolbox)
深層学習層の一覧 (Deep Learning Toolbox)

深層学習を使用したニューラル スタイル転送