Main Content

このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。

layerNormalizationLayer

    説明

    レイヤー正規化層は、すべてのチャネル全体におけるデータのミニバッチの正規化を、各観測値について個別に行います。再帰型多層パーセプトロン ニューラル ネットワークの学習速度を上げ、ネットワークの初期化に対する感度を下げるには、LSTM 層や全結合層などの学習可能な層の後に、レイヤー正規化層を使用します。

    正規化後、この層は、学習可能なスケール係数 γ だけ入力をスケーリングし、それを学習可能なオフセット β だけシフトします。

    作成

    説明

    layer = layerNormalizationLayer は、レイヤー正規化層を作成します。

    layer = layerNormalizationLayer(Name,Value) は、1 つ以上の名前と値のペアの引数を使用して、オプションの Epsilonパラメーターと初期化学習率および正則化、および Name プロパティを設定します。たとえば、layerNormalizationLayer('Name','layernorm') は、'layernorm' という名前のレイヤー正規化層を作成します。

    プロパティ

    すべて展開する

    レイヤー正規化

    ミニバッチの分散に加算する定数。1e-5 以上の数値スカラーとして指定します。

    層は、正規化の前にミニバッチの分散にこの定数を加算して、数値安定性を確保し、ゼロ除算を回避します。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    このプロパティは読み取り専用です。

    入力チャネル数。次のいずれかとして指定します。

    • 'auto' — 学習時に入力チャネルの数を自動的に決定します。

    • 正の整数 — 指定された数の入力チャネルの層を構成します。NumChannels と層入力データのチャネル数は一致しなければなりません。たとえば、入力が RGB イメージの場合、NumChannels は 3 でなければなりません。入力が 16 個のフィルターをもつ畳み込み層の出力である場合、NumChannels は 16 でなければなりません。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64 | char | string

    パラメーターと初期化

    チャネル スケール係数を初期化する関数。次のいずれかに指定します。

    • 'ones' – 1 でチャネル スケール係数を初期化します。

    • 'zeros' – 0 でチャネル スケール係数を初期化します。

    • 'narrow-normal' – 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、チャネル スケール係数を初期化します。

    • 関数ハンドル – カスタム関数でチャネル スケール係数を初期化します。関数ハンドルを指定する場合、関数は scale = func(sz) という形式でなければなりません。ここで、sz はスケールのサイズです。例については、カスタム重み初期化関数の指定を参照してください。

    この層では、Scale プロパティが空の場合にのみチャネル スケール係数が初期化されます。

    データ型: char | string | function_handle

    チャネル オフセットを初期化する関数。次のいずれかに指定します。

    • 'zeros' – 0 でチャネル オフセットを初期化します。

    • 'ones' – 1 でチャネル オフセットを初期化します。

    • 'narrow-normal' – 平均 0、標準偏差 0.01 の正規分布から個別にサンプリングを行って、チャネル オフセットを初期化します。

    • 関数ハンドル – カスタム関数でチャネル オフセットを初期化します。関数ハンドルを指定する場合、関数は offset = func(sz) という形式でなければなりません。ここで、sz はスケールのサイズです。例については、カスタム重み初期化関数の指定を参照してください。

    この層では、Offset プロパティが空の場合にのみチャネル オフセットが初期化されます。

    データ型: char | string | function_handle

    チャネル スケール係数 γ。数値配列として指定します。

    チャネル スケール係数は学習可能なパラメーターです。ネットワークの学習時に、Scale が空ではない場合、trainNetworkScale プロパティを初期値として使用します。Scale が空の場合、trainNetworkScaleInitializer によって指定された初期化子を使用します。

    学習時、Scale は次のいずれかです。

    • 2 次元イメージ入力の場合、サイズが 1 x 1 x NumChannels の数値配列

    • 3 次元イメージ入力の場合、サイズが 1 x 1 x 1 x NumChannels の数値配列

    • 特徴入力またはシーケンス入力の場合、サイズが NumChannels 行 1 列の数値配列

    データ型: single | double

    チャネル オフセット β。数値配列として指定します。

    チャネル オフセットは学習可能なパラメーターです。ネットワークの学習時に、Offset が空ではない場合、trainNetworkOffset プロパティを初期値として使用します。Offset が空の場合、trainNetworkOffsetInitializer によって指定された初期化子を使用します。

    学習時、Offset は次のいずれかです。

    • 2 次元イメージ入力の場合、サイズが 1 x 1 x NumChannels の数値配列

    • 3 次元イメージ入力の場合、サイズが 1 x 1 x 1 x NumChannels の数値配列

    • 特徴入力またはシーケンス入力の場合、サイズが NumChannels 行 1 列の数値配列

    データ型: single | double

    学習率および正則化

    スケール係数の学習率係数。非負のスカラーとして指定します。

    この係数にグローバル学習率が乗算されて、層のスケール係数の学習率が決定されます。たとえば、ScaleLearnRateFactor2 の場合、層のスケール係数の学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定された設定に基づいて、グローバル学習率が決定されます。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    オフセットの学習率係数。非負のスカラーとして指定します。

    この係数にグローバル学習率が乗算されて、層のオフセットの学習率が決定されます。たとえば、OffsetLearnRateFactor2 の場合、層のオフセットの学習率は現在のグローバル学習率の 2 倍になります。関数 trainingOptions で指定された設定に基づいて、グローバル学習率が決定されます。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    スケール係数の L2 正則化係数。非負のスカラーとして指定します。

    この係数にグローバル L2 正則化係数が乗算されて、層のスケール係数の学習率が決定されます。たとえば、ScaleL2Factor2 の場合、層のオフセットの L2 正則化はグローバル L2 正則化係数の 2 倍になります。グローバル L2 正則化係数は、関数 trainingOptions を使用して指定できます。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    オフセットの L2 正則化係数。非負のスカラーとして指定します。

    この係数にグローバル L2 正則化係数が乗算されて、層のオフセットの学習率が決定されます。たとえば、OffsetL2Factor2 の場合、層のオフセットの L2 正則化はグローバル L2 正則化係数の 2 倍になります。グローバル L2 正則化係数は、関数 trainingOptions を使用して指定できます。

    データ型: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

    層の名前。文字ベクトルまたは string スカラーとして指定します。Layer 配列入力の場合、関数 trainNetworkassembleNetworklayerGraph、および dlnetwork は、名前が '' の層に自動的に名前を割り当てます。

    データ型: char | string

    このプロパティは読み取り専用です。

    層の入力の数。この層は単一の入力のみを受け入れます。

    データ型: double

    このプロパティは読み取り専用です。

    層の入力名。この層は単一の入力のみを受け入れます。

    データ型: cell

    このプロパティは読み取り専用です。

    層の出力の数。この層には単一の出力のみがあります。

    データ型: double

    このプロパティは読み取り専用です。

    層の出力名。この層には単一の出力のみがあります。

    データ型: cell

    すべて折りたたむ

    'layernorm' という名前のレイヤー正規化層を作成します。

    layer = layerNormalizationLayer('Name','layernorm')
    layer = 
      LayerNormalizationLayer with properties:
    
               Name: 'layernorm'
        NumChannels: 'auto'
    
       Hyperparameters
            Epsilon: 1.0000e-05
    
       Learnable Parameters
             Offset: []
              Scale: []
    
      Show all properties
    
    

    Layer 配列にレイヤー正規化層を含めます。

    layers = [
        imageInputLayer([32 32 3]) 
        convolution2dLayer(3,16,'Padding',1)
        layerNormalizationLayer
        reluLayer   
        maxPooling2dLayer(2,'Stride',2)
        convolution2dLayer(3,32,'Padding',1)
        layerNormalizationLayer
        reluLayer
        fullyConnectedLayer(10)
        softmaxLayer
        classificationLayer]
    layers = 
      11x1 Layer array with layers:
    
         1   ''   Image Input             32x32x3 images with 'zerocenter' normalization
         2   ''   Convolution             16 3x3 convolutions with stride [1  1] and padding [1  1  1  1]
         3   ''   Layer Normalization     Layer normalization
         4   ''   ReLU                    ReLU
         5   ''   Max Pooling             2x2 max pooling with stride [2  2] and padding [0  0  0  0]
         6   ''   Convolution             32 3x3 convolutions with stride [1  1] and padding [1  1  1  1]
         7   ''   Layer Normalization     Layer normalization
         8   ''   ReLU                    ReLU
         9   ''   Fully Connected         10 fully connected layer
        10   ''   Softmax                 softmax
        11   ''   Classification Output   crossentropyex
    

    アルゴリズム

    レイヤー正規化演算は、各観測値について、空間領域、時間領域、およびチャネルの各次元における平均 μL と分散 σL2 をまず個別に計算することで、入力の要素 xi を正規化します。その後、正規化された活性化を次のように計算します。

    xi^=xiμLσL2+ϵ,

    ここで、ϵ は、分散が非常に小さいときに数値安定性を向上させる定数です。

    ゼロ平均と単位分散をもつ入力がレイヤー正規化後の演算に最適ではない可能性を考慮して、レイヤー正規化演算は、次の変換を使用して活性化のさらなるシフトとスケーリングを行います。

    yi=γx^i+β,

    ここで、オフセット β とスケール係数 γ は、ネットワークの学習中に更新される学習可能パラメーターです。

    参照

    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. “Layer Normalization.” Preprint, submitted July 21, 2016. https://arxiv.org/abs/1607.06450.

    バージョン履歴

    R2021a で導入