MATLAB による複数の GPU での深層学習

MATLAB^® は、複数の GPU を使用した、1 つの深層ニューラルネットワークの並列学習をサポートしています。GPU をもつ並列ワーカーを使用することで、ローカルマシン、クラスター、またはクラウドにある複数の GPU で学習を行えます。複数の GPU を使用すると、学習を大幅に高速化できます。マルチ GPU での学習で性能の向上が期待できるかどうかを判断するには、以下の点を検討します。

各 GPU の反復の長さはどれだけか。各 GPU の反復が短ければ、GPU 間の通信の追加オーバーヘッドの影響が大きくなります。バッチサイズをより大きくして、反復あたりの計算量を増やしてみてください。
すべての GPU が 1 つのマシン上にあるか。異なるマシン上にある GPU 間の通信は、大幅な通信遅延を生みます。適切なハードウェアがあれば、これを軽減できます。詳細については、高速マルチノード GPU 通信の高度なサポートを参照してください。

ヒント

複数の GPU をローカルマシンで使用して 1 つのネットワークに学習させるには、ExecutionEnvironment オプションを "multi-gpu" として指定し、コードの他の箇所はそのまま変更せずに残します。関数 trainnet は、学習計算に利用できる GPU を自動的に使用します。複数のローカル GPU を使用してネットワークに学習させる方法を示す例については、自動マルチ GPU のサポートを使用したネットワークの学習を参照してください。

リモートクラスターで学習を行うには、ExecutionEnvironment オプションを "parallel-auto" として指定します。クラスターから 1 つ以上の GPU にアクセスできる場合、trainnet はその GPU のみを学習に使用します。固有の GPU をもたないワーカーは学習計算に使用されません。

より多くのリソースを使用する必要がある場合は、深層学習における学習をクラスターまたはクラウドにスケールアップできます。並列オプションの詳細は、Scale Up Deep Learning in Parallel, on GPUs, and in the Cloudを参照してください。例を試してみるには、自動並列サポートを使用したクラウドでのネットワークの学習を参照してください。

GPU または並列オプションを使用するには、Parallel Computing Toolbox™ が必要です。GPU を使用するには、サポートされている GPU デバイスも必要です。サポートされているデバイスの詳細については、GPU 計算の要件 (Parallel Computing Toolbox)を参照してください。リモートクラスターを使用する場合、MATLAB Parallel Server™ も必要です。

ローカルマシンにおける複数の GPU の使用

メモ

ssh またはリモートデスクトッププロトコル (RDP) を使用して接続したクラウドにある 1 つのマシンで MATLAB を実行する場合、ローカルマシンで実行した場合と同様に、ネットワークの実行と学習で同じコードが使用されます。

複数の GPU があるマシンにアクセスできる場合は、関数 trainingOptions を使用して ExecutionEnvironment 学習オプションを "multi-gpu" に設定することで、関数 trainnet を使用してネットワークに学習させることができます。

"multi-gpu" オプションを使用すると、ローカルの並列プールで複数の GPU を使用できます。現在の並列プールがない場合、trainnet は既定のクラスタープロファイルの設定を使用してローカルの並列プールを自動的に起動します。このプールには、使用可能な GPU と同じ数のワーカーがあります。

ローカルマシンで複数の GPU を使用してカスタム学習を実行する方法の詳細については、Run Custom Training Loops on a GPU and in Parallelを参照してください。

クラスターにおける複数の GPU の使用

リモートクラスター内の複数の GPU を使用して学習させる場合は、関数 trainingOptions を使用して、ExecutionEnvironment 学習オプションを "parallel-auto" または "parallel-gpu" に設定します。

現在の並列プールがない場合、trainnet は、既定のクラスタープロファイルの設定を使用して並列プールを自動的に起動します。プールから GPU にアクセスできる場合、固有の GPU を持つワーカーのみが学習計算を実行します。プールに GPU がない場合、代わりに使用可能なすべての CPU ワーカーで学習が実行されます。

リモートクラスターで複数の GPU を使用してカスタム学習を実行する方法の詳細については、Run Custom Training Loops on a GPU and in Parallelを参照してください。

ミニバッチサイズと学習率の最適化

通常、畳み込みニューラルネットワークは、イメージのミニバッチを使用して反復的に学習させます。これは、一般にデータセット全体が大きすぎて GPU メモリに収まらないためです。最適な性能を得るために、関数 trainingOptions を使用して MiniBatchSize オプションを変更し、ミニバッチサイズを試すことができます。

最適なミニバッチサイズは、実際のネットワーク、データセット、および GPU ハードウェアによって異なります。複数の GPU を使用した学習の場合、各イメージバッチが GPU 間に分散されます。これによって、利用可能な合計 GPU メモリが実質上増え、より大きなバッチサイズを処理できます。GPU の数でミニバッチサイズを線形にスケールアップし、各 GPU における作業負荷を一定に保つことを推奨します。たとえば、64 のミニバッチサイズを使用して 1 つの GPU で学習を行っており、タイプが同じ GPU を 4 つ使用して学習を行うようにスケールアップする場合、ミニバッチサイズを 256 まで大きくすることで、反復ごとに各 GPU に 64 個の観測値を処理させることができます。

ミニバッチのサイズを大きくすると各反復の重要性が増すため、学習率を大きくすることができます。一般に、ミニバッチサイズの拡大に比例して学習率を大きくすることを推奨します。用途によって異なりますが、ミニバッチサイズと学習率を大きくすると、ある程度までは精度を損なわずに学習を高速化できます。

実験マネージャーアプリを使用すると、各種ハイパーパラメーター値のスイープやベイジアン最適化を行って、最適な学習オプションを見つけることができます。実験マネージャーの使用方法の詳細については、分類用の深層学習実験の作成を参照してください。

学習に使用する特定の GPU の選択

すべての GPU を使用するわけではない場合は、学習や推論に使用する GPU を直接選択できます。これは、パフォーマンスが低い GPU (ディスプレイ GPU など) で学習が実行されるのを防ぐために役立ちます。

GPU がローカルマシンにある場合、関数 gpuDeviceTable (Parallel Computing Toolbox) および gpuDeviceCount (Parallel Computing Toolbox) を使用して GPU リソースを調べ、使用する GPU のインデックスを決定します。

"auto" オプションまたは "gpu" オプションを指定して 1 つの GPU で学習を行う場合、既定では、MATLAB はインデックスが 1 の GPU デバイスを使用します。学習を開始する前にデバイスを選択することで、異なる GPU を使用できます。gpuDevice (Parallel Computing Toolbox) を使用してインデックスを指定し、目的の GPU を選択します。

gpuDevice(index)

ExecutionEnvironment オプションを "auto" または "gpu" に設定した場合、trainnet は選択された GPU を自動的に使用します。

"multi-gpu" オプションを指定して複数の GPU で学習を行う場合、既定では、MATLAB はローカルマシンで利用可能なすべての GPU を使用します。一部の GPU を除外する場合は、事前に並列プールを起動し、デバイスを手動で選択します。

たとえば、GPU が 3 つあるものの、インデックスが 1 と 3 であるデバイスのみを使用したいとします。次のコードを使用することで、2 つのワーカーをもつ並列プールを起動し、ワーカーごとに GPU を 1 つずつ選択することができます。

useGPUs = [1 3];
parpool("Processes",numel(useGPUs));
spmd 
    gpuDevice(useGPUs(spmdIndex)); 
end

ExecutionEnvironment オプションを "multi-gpu" に設定した場合、trainnet は現在の並列プールを自動的に使用します ("parallel-auto" または "parallel-gpu" でも同じ結果)。

複数の GPU における複数のネットワークの学習

複数のモデルに 1 つずつ GPU を使用して並列学習を行う場合、使用可能な GPU ごとに 1 つのワーカーをもつ並列プールを起動し、それぞれのワーカー上で各ネットワークに学習させます。各ワーカーでネットワークを同時に実行するには、parfor または parfeval を使用します。関数 trainingOptions を使用して、各ワーカーの名前と値のオプション ExecutionEnvironment を "gpu" に設定します。

たとえば、次の形式のコードを使用して、使用可能なすべての GPU 上で複数のネットワークの並列学習を行います。

options = trainingOptions("sgdm",ExecutionEnvironment="gpu");

parfor i=1:gpuDeviceCount("available")
    trainnet(…,options); 
end

ローカルの MATLAB をブロックすることなくバックグラウンドで実行するには、parfeval を使用します。parfor および parfeval を使用して複数のネットワークに学習させる方法を示す例については、次を参照してください。

複数の GPU を使用した予測の実行

複数の GPU を使用して並列で予測を行うには、GPU ごとに 1 つのワーカーをもつ並列プールを作成し、データを分割して並列で予測を行います。複数の GPU を使用して予測を行う方法を示す例については、自動マルチ GPU のサポートを使用したネットワークの学習を参照してください。

高速マルチノード GPU 通信の高度なサポート

MATLAB の一部のマルチ GPU 機能 (関数 trainnet など) は、高速相互接続で直接通信して高い性能を実現できるように最適化されています。

ハードウェアが適切に接続されている場合、複数の GPU 間のデータ転送において、利用可能であれば NVLink などの高速ピアツーピア通信が使用されます。

Infiniband などのマシン間の高速相互接続または GPUDirect RDMA などの異なるマシン上の GPU 間の高速相互接続を使用する Linux^® 計算クラスターを使用している場合、MATLAB の高速マルチノードサポートを活用できる場合があります。環境変数 PARALLEL_SERVER_FAST_MULTINODE_GPU_COMMUNICATION を 1 に設定して、プール内のすべてのワーカーでこのサポートを有効にします。この環境変数はクラスタープロファイルマネージャーで設定します。

この機能は、GPU 通信用の NVIDIA NCCL ライブラリの一部です。これを構成するには、追加の環境変数 (特に NCCL_SOCKET_IFNAME) を設定して、ネットワークインターフェイスプロトコルを定義しなければなりません。詳細については、NCCL のドキュメンテーション、特に NCCL 環境変数のセクションを参照してください。

参考