深層学習層の一覧
このページは、MATLAB® にあるすべての深層学習層の一覧を提供します。
さまざまなタスクで層からネットワークを作成する方法については、以下の例を参照してください。
タスク | 詳細 |
---|---|
イメージの分類または回帰用の深層学習ネットワークを作成する | |
シーケンスおよび時系列データ用の深層学習ネットワークを作成する | |
オーディオ データ用の深層学習ネットワークを作成する | 深層学習を使用した音声コマンド認識モデルの学習 |
テキスト データ用の深層学習ネットワークを作成する |
深層学習層
さまざまな層のタイプを作成するには、以下の関数を使用します。または、ディープ ネットワーク デザイナー アプリを使用してネットワークを対話形式で作成します。
独自のカスタム層を定義する方法については、カスタム深層学習層の定義を参照してください。
入力層
層 | 説明 |
---|---|
イメージ入力層は、ニューラル ネットワークに 2 次元イメージを入力し、データ正規化を適用します。 | |
3 次元イメージ入力層は、ニューラル ネットワークに 3 次元イメージまたは 3 次元ボリュームを入力し、データ正規化を適用します。 | |
| 点群入力層は、ネットワークに 3 次元点群を入力し、データ正規化を適用します。2 次元 LiDAR スキャンなどの点群データを入力することもできます。 |
シーケンス入力層は、ニューラル ネットワークにシーケンス データを入力します。 | |
特徴入力層は、特徴データをニューラル ネットワークに入力し、データ正規化を適用します。特徴 (空間次元または時間次元のないデータ) を表す数値スカラーのデータ セットがある場合は、この層を使用します。 | |
| ROI 入力層は、Fast R-CNN オブジェクト検出ネットワークにイメージを入力します。 |
畳み込み層と全結合層
層 | 説明 |
---|---|
1 次元畳み込み層は、1 次元入力にスライディング畳み込みフィルターを適用します。 | |
2 次元畳み込み層は、2 次元入力にスライディング畳み込みフィルターを適用します。 | |
3 次元畳み込み層は、3 次元入力にスライディング直方体畳み込みフィルターを適用します。 | |
グループ化された 2 次元畳み込み層は、入力チャネルをグループに分けて、スライディング畳み込みフィルターを適用します。チャネル方向に分離可能な (深さ方向に分離可能とも呼ばれる) 畳み込みには、グループ化された畳み込み層を使用します。 | |
2 次元転置畳み込み層では 2 次元の特徴マップがアップサンプリングされます。 | |
3 次元転置畳み込み層では 3 次元の特徴マップがアップサンプリングされます。 | |
全結合層は、入力に重み行列を乗算し、バイアス ベクトルを加算します。 |
シーケンス層
層 | 説明 |
---|---|
シーケンス入力層は、ニューラル ネットワークにシーケンス データを入力します。 | |
LSTM 層は、時系列データおよびシーケンス データのタイム ステップ間の長期的な依存関係を学習する RNN 層です。 | |
LSTM 投影層は、投影された学習可能な重みを使用して、時系列データおよびシーケンス データのタイム ステップ間の長期的な依存関係を学習する RNN 層です。 | |
双方向 LSTM (BiLSTM) 層は、時系列データまたはシーケンス データのタイム ステップ間の双方向の長期的な依存関係を学習する RNN 層です。これらの依存関係は、各タイム ステップで時系列全体から RNN に学習させる場合に役立ちます。 | |
GRU 層は、時系列データおよびシーケンス データのタイム ステップ間の依存関係を学習する RNN 層です。 | |
1 次元畳み込み層は、1 次元入力にスライディング畳み込みフィルターを適用します。 | |
1 次元転置畳み込み層では 1 次元の特徴マップがアップサンプリングされます。 | |
1 次元最大プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の最大値を計算することによって、ダウンサンプリングを実行します。 | |
1 次元平均プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の平均値を計算することによって、ダウンサンプリングを実行します。 | |
1 次元グローバル最大プーリング層は、入力の時間次元または空間次元の最大値を出力することによって、ダウンサンプリングを実行します。 | |
シーケンス折りたたみ層は、イメージ シーケンスのバッチをイメージのバッチに変換します。シーケンス折りたたみ層を使用して、畳み込み演算をイメージ シーケンスのタイム ステップごとに個別に実行します。 | |
シーケンス展開層は、シーケンスの折りたたみ後に入力データのシーケンス構造を復元します。 | |
フラット化層は、入力の空間次元を折りたたんでチャネルの次元にします。 | |
自己注意層は、入力のシングルヘッドまたはマルチヘッドの自己注意を計算します。 | |
| 単語埋め込み層は、単語インデックスをベクトルにマッピングします。 |
| Peephole LSTM 層は LSTM 層のバリアントであり、ゲート計算で層のセル状態が使用されるようにするためのものです。 |
活性化層
層 | 説明 |
---|---|
ReLU 層は、入力の各要素に対してしきい値処理を実行し、値がゼロよりも小さい場合はゼロに設定します。 | |
leaky ReLU 層は、しきい値処理を実行し、入力値がゼロよりも小さい場合は固定のスカラーによって乗算します。 | |
クリップされた ReLU 層は、しきい値処理を実行し、入力値がゼロよりも小さい場合はゼロに設定して、値が "クリップ上限" を超える場合はそのクリップ上限に設定します。 | |
ELU 活性化層は、正の入力に対して恒等演算を実行し、負の入力に対して非線形となる指数演算を実行します。 | |
ガウス誤差線形単位 (GELU) 層は、ガウス確率分布に従って入力を重み付けします。 | |
双曲線正接 (tanh) 活性化層は、層の入力に対して tanh 関数を適用します。 | |
Swish 活性化層は、層の入力に対して Swish 関数を適用します。 | |
| ソフトプラス層は、出力が必ず常に正であるようにするソフトプラス活性化関数 Y = log(1 + eX) を適用します。この活性化関数は、reluLayer の滑らかで連続的なバージョンです。ユーザーが定義した深層ニューラル ネットワークにこの層を組み込んで、強化学習エージェントのアクターとして使用できます。この層は、標準偏差出力が正でなければならない連続ガウス方策深層ニューラル ネットワークを作成する場合に役立ちます。 |
関数層は、指定された関数を層の入力に適用します。 | |
| PReLU 層はしきい値処理を実行します。各チャネルについて、入力値がゼロよりも小さい場合は、学習時に得られたスカラーによって乗算されます。 |
正規化層
層 | 説明 |
---|---|
バッチ正規化層は、観測値全体におけるデータ ミニバッチの正規化を、各チャネルについて個別に行います。畳み込みニューラル ネットワークの学習速度を上げ、ネットワークの初期化に対する感度を下げるには、畳み込み層の間にあるバッチ正規化層と、ReLU 層などの非線形性を使用します。 | |
グループ正規化層は、グループ化されたチャネル サブセット全体におけるデータのミニバッチの正規化を、各観測値について個別に行います。畳み込みニューラル ネットワークの学習速度を上げ、ネットワークの初期化に対する感度を下げるには、畳み込み層の間にあるグループ正規化層と、ReLU 層などの非線形性を使用します。 | |
インスタンス正規化層は、各チャネル全体におけるデータのミニバッチの正規化を、各観測値について個別に行います。畳み込みニューラル ネットワークの学習の収束性能を上げ、ネットワークのハイパーパラメーターに対する感度を下げるには、畳み込み層の間にあるインスタンス正規化層と、ReLU 層などの非線形性を使用します。 | |
レイヤー正規化層は、すべてのチャネル全体におけるデータのミニバッチの正規化を、各観測値について個別に行います。再帰型多層パーセプトロン ニューラル ネットワークの学習速度を上げ、ネットワークの初期化に対する感度を下げるには、LSTM 層や全結合層などの学習可能な層の後に、レイヤー正規化層を使用します。 | |
チャネル単位の局所応答 (クロスチャネル) 正規化層は、チャネル単位の正規化を行います。 |
ユーティリティ層
層 | 説明 |
---|---|
ドロップアウト層は、与えられた確率でランダムに、入力要素をゼロに設定します。 | |
2 次元切り取り層は、入力に 2 次元のトリミングを適用します。 | |
3 次元切り取り層は、3 次元ボリュームをトリミングし入力特徴マップのサイズにします。 | |
| スケーリング層は、入力配列 U の線形スケーリングと線形バイアス処理を行い、Y = Scale.*U + Bias を出力します。ユーザーが定義した深層ニューラル ネットワークにこの層を組み込んで、強化学習エージェントのアクターまたはクリティックとして使用できます。この層は、tanhLayer やシグモイドなどの非線形層の出力のスケーリングとシフトを行う場合に役立ちます。 |
| 二次層は、入力ベクトルを受け取り、入力要素から構築された 2 次単項式のベクトルを出力します。この層は、出力が入力に対する 2 次関数である層が必要な場合に役立ちます。たとえば、LQR コントローラーの設計で使用されるような 2 次値関数の構造体を再作成する場合です。 |
| STFT 層は、入力の短時間フーリエ変換を計算します。 |
| CWT 層は、入力の CWT を計算します。 |
| MODWT 層は、入力の MODWT および MODWT 多重解像度解析 (MRA) を計算します。 |
サイズ変更層
層 | 説明 |
---|---|
| 2 次元サイズ変更層は、指定された高さと幅、または参照入力特徴マップのサイズに合わせて、スケール係数により、2 次元入力のサイズを変更します。 |
| 3 次元サイズ変更層は、指定された高さ、幅、および深さ、または参照入力特徴マップのサイズに合わせて、スケール係数により、3 次元入力のサイズを変更します。 |
プーリング層と逆プーリング層
層 | 説明 |
---|---|
1 次元平均プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の平均値を計算することによって、ダウンサンプリングを実行します。 | |
2 次元平均プーリング層は、入力を矩形のプーリング領域に分割し、各領域の平均を計算することによって、ダウンサンプリングを実行します。 | |
3 次元平均プーリング層は、3 次元入力を直方体のプーリング領域に分割し、各領域の平均値を計算することによって、ダウンサンプリングを実行します。 | |
1 次元グローバル平均プーリング層は、入力の時間次元または空間次元の平均を出力することによって、ダウンサンプリングを実行します。 | |
2 次元グローバル平均プーリング層は、入力の高さおよび幅の次元の平均を計算することによって、ダウンサンプリングを実行します。 | |
3 次元グローバル平均プーリング層は、入力の高さ、幅、および深さの次元の平均を計算することによって、ダウンサンプリングを実行します。 | |
1 次元最大プーリング層は、入力を 1 次元のプーリング領域に分割し、各領域の最大値を計算することによって、ダウンサンプリングを実行します。 | |
2 次元最大プーリング層は、入力を矩形のプーリング領域に分割し、各領域の最大値を計算することによって、ダウンサンプリングを実行します。 | |
3 次元最大プーリング層は、3 次元入力を直方体のプーリング領域に分割し、各領域の最大値を計算することによって、ダウンサンプリングを実行します。 | |
1 次元グローバル最大プーリング層は、入力の時間次元または空間次元の最大値を出力することによって、ダウンサンプリングを実行します。 | |
2 次元グローバル最大プーリング層は、入力の高さおよび幅の次元の最大値を計算することによって、ダウンサンプリングを実行します。 | |
3 次元グローバル最大プーリング層は、入力の高さ、幅、および深さの次元の最大値を計算することによって、ダウンサンプリングを実行します。 | |
2 次元最大逆プーリング層は、2 次元最大プーリング層の出力を逆プーリングします。 |
結合層
層 | 説明 |
---|---|
加算層は、複数のニューラル ネットワーク層からの入力を要素単位で加算します。 | |
乗算層は、複数のニューラル ネットワーク層からの入力を要素単位で乗算します。 | |
深さ連結層は、高さと幅が同じ入力を取り、チャネル次元に沿ってこれらを連結します。 | |
連結層は入力を取り、指定された次元に沿って入力を連結します。入力のサイズは、連結の次元を除き、すべての次元で同じでなければなりません。 | |
| 重み付き加算層は、複数のニューラル ネットワーク層からの入力を要素単位でスケーリングして加算します。 |
オブジェクト検出層
層 | 説明 |
---|---|
| ROI 入力層は、Fast R-CNN オブジェクト検出ネットワークにイメージを入力します。 |
| ROI 最大プーリング層は、入力の特徴マップ内のすべての四角形 ROI に対して固定サイズの特徴マップを出力します。Fast R-CNN オブジェクトまたは Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| ROI 配置層は、入力の特徴マップ内のすべての四角形 ROI に対して固定サイズの特徴マップを出力します。Mask R-CNN ネットワークを作成するには、この層を使用します。 |
| アンカー ボックス層は、オブジェクト検出ネットワークで使用される特徴マップのアンカー ボックスを保存します。 |
| 領域提案層は、Faster R-CNN 内の領域提案ネットワーク (RPN) の一部として、イメージの有力なオブジェクトの周囲に境界ボックスを出力します。 |
| SSD マージ層は、後続の回帰や分類の損失計算に使用する特徴マップの出力をマージします。 |
![]() yolov2TransformLayer (Computer Vision Toolbox) | You Only Look Once version 2 (YOLO v2) ネットワークの変換層は、グラウンド トゥルースの境界内に収まるようにネットワーク内の最終畳み込み層の境界ボックス予測を変換します。YOLO v2 ネットワークの安定性を改善するには、この変換層を使用します。 |
| 空間から深さへの変換層は、入力の空間ブロックを深さの次元に置換します。特徴データを破棄することなく、異なるサイズの特徴マップを組み合わせる必要がある場合は、この層を使用します。 |
| 深さから空間への 2 次元の変換層は、深さの次元のデータを 2 次元の空間データのブロックに置換します。 |
| 領域提案ネットワーク (RPN) ソフトマックス層は、入力にソフトマックス活性化関数を適用します。Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| 焦点損失層は、焦点損失を使用してオブジェクトのクラスを予測します。 |
| 領域提案ネットワーク (RPN) 分類層は、クロス エントロピー損失関数を使用して、イメージ領域を "オブジェクト" または "背景" として分類します。Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| ボックス回帰層は、スムーズ L1 損失関数を使用して、境界ボックスの位置を調整します。Fast R-CNN オブジェクトまたは Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
出力層
層 | 説明 |
---|---|
ソフトマックス層は、入力にソフトマックス関数を適用します。 | |
シグモイド層は、出力が区間 (0,1) の範囲に収まるように、シグモイド関数を入力に適用します。 | |
分類層は、互いに排他的なクラスをもつ分類タスクおよび重み付き分類タスクの交差エントロピー損失を計算します。 | |
回帰層は、回帰タスクの半平均二乗誤差損失を計算します。 | |
| ピクセル分類層は、各イメージ ピクセルまたはボクセルのカテゴリカル ラベルを提供します。 |
| Dice ピクセル分類層は、一般化 Dice 損失を使用して、各イメージ ピクセルまたはボクセルのカテゴリカル ラベルを提供します。 |
| 焦点損失層は、焦点損失を使用してオブジェクトのクラスを予測します。 |
| 領域提案ネットワーク (RPN) ソフトマックス層は、入力にソフトマックス活性化関数を適用します。Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| 領域提案ネットワーク (RPN) 分類層は、クロス エントロピー損失関数を使用して、イメージ領域を "オブジェクト" または "背景" として分類します。Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| ボックス回帰層は、スムーズ L1 損失関数を使用して、境界ボックスの位置を調整します。Fast R-CNN オブジェクトまたは Faster R-CNN オブジェクト検出ネットワークを作成するには、この層を使用します。 |
| You Only Look Once version 2 (YOLO v2) ネットワークの出力層は、予測された境界ボックスの位置とグラウンド トゥルースの間の平均二乗誤差損失を最小化して、境界ボックスの位置を調整します。 |
| Tversky ピクセル分類層は、Tversky 損失を使用して、各イメージ ピクセルまたはボクセルのカテゴリカル ラベルを提供します。 |
| 分類 SSE 層は、分類問題の残差平方和損失を計算します。 |
| 回帰 MAE 層は、回帰問題の平均絶対誤差損失を計算します。 |
参考
trainingOptions
| trainNetwork
| ディープ ネットワーク デザイナー