深層強化学習

制御および意思決定アプリケーションにディープラーニングを適用

深層強化学習は、ロボットや自律システムなどの複雑なアプリケーションのコントローラーや意思決定アルゴリズムの実装を可能にする機械学習の一分野です。深層強化学習では、シミュレーションされたシステムや物理システムから動的に生成されたデータを使用して、ニューラルネットワークに複雑な動作を学習させることができます。

MATLAB、Simulink、および Reinforcement Learning Toolbox を使用して、深層強化学習システムの設計と展開のための完全なワークフローを実行できます。以下を行うことができます。

広く利用されている深層強化学習アルゴリズムの切り替え、評価、および比較
強化学習デザイナーアプリを用いた対話的な方策の学習
MATLAB と Simulink で学習環境をモデル化することによる、ハードウェアの損傷リスクの低減
ニューラルネットワークを使用した、対話形式またはプログラムによる深層強化学習方策の作成
深層強化学習方策の組み込みデバイスまたはクラウドへの展開

「5G は、敵対的攻撃から保護すべき重要なインフラストラクチャです。Reinforcement Learning Toolbox により、迅速に 5G の脆弱性を評価し、緩和手法を特定できました。」
Ambrose Kam, Lockheed Martin

Reinforcement Learning Toolbox を使用した 5G 脆弱性解析

深層強化学習に MATLAB と Simulink を使用する理由

深層強化学習エージェントの学習の進行状況を表示した強化学習デザイナーアプリのスクリーンショット。

強化学習デザイナーを使用した視覚的な対話形式のワークフロー

強化学習デザイナーアプリを使用して、深層強化学習エージェントの対話的な作成、学習、シミュレーションを行います。自動ガイダンスを活用して、適切なエージェントタイプを選択します。Deterministic Policy Gradient (DDPG)、Soft Actor Critic (SAC)、Proximal Policy Optimization (PPO) など、そのままで使用できる、広く利用されている深層強化学習アルゴリズムから選択します。

強化学習エージェントの対話的な作成と学習 (5:38)

組み込みの強化学習エージェント

強化学習デザイナーを使用したエージェントの設計と学習

四足歩行ロボットの深層強化学習の例を示した Simulink モデルのスクリーンショット。

モデルベースデザインを用いた学習、システムレベルのテスト、および展開

学習環境を Simulink (または MATLAB) でモデル化し、ハードウェアが損傷を受けるリスクを低減します。RL Agent ブロックを使用して、環境モデルと深層強化学習エージェントをシームレスに統合します。逐次処理または並列処理で方策の学習を行い、(システムレベルの) シミュレーションと SIL (ソフトウェアインザループ)/HIL (ハードウェアインザループ) テストを用いて検証します。学習済みの方策を組み込みデバイスまたはクラウドに展開します。

強化学習で使用する環境の作成

強化学習の SIL および PIL 検証の実行

深層強化学習方策の展開

ニューラルネットワークアーキテクチャを表示したディープネットワークデザイナーアプリのスクリーンショット。

ニューラルネットワークの方策の自動および対話型による作成

問題に特化した自動生成のニューラルネットワークアーキテクチャを使用することで、ニューラルネットワークの方策を設計するエキスパートでなくても、深層強化学習エージェントを作成できます。推奨されたニューラルネットワークアーキテクチャをそのまま使用するか、ディープネットワークデザイナーアプリ (対話形式の手法) または Deep Learning Toolbox の層 (プログラムによる手法) を使用して微調整します。インポート機能およびエクスポート機能を適用して、サードパーティ製フレームワークのニューラルネットワーク表現と相互運用します。

Reinforcement Learning Toolbox による倒立振子の DQN 制御 (6:51)

ディープニューラルネットワークを用いた MATLAB における方策の表現

ディープネットワークデザイナーを用いた DQN エージェントの作成

駐車場に停められた車を表示した Unreal Engine シミュレーション環境のスクリーンショット。

例およびリファレンスアプリケーション

ロボティクス、自動運転、キャリブレーション、スケジューリングなどのアプリケーション向けにコントローラーや意思決定アルゴリズムを設計することで、深層強化学習を始めてみましょう。参照例を使用して、シングル/マルチエージェント学習、オンライン/オフライン学習、モデルフリー/モデルベース手法、および勾配ベース/進化的学習戦略を試すことができます。

強化学習の例

モデルベースの強化学習エージェントを学習させる方法 (6:03)

歩行ロボットのための深層強化学習 (15:52)