機械学習の一分野である深層強化学習により、ロボットや自律システムなどの複雑なシステムのコントローラーや意思決定システムを実装できます。深層強化学習では、シミュレーションや物理システムから動的に生成されたデータを使用して学習を行うことで、複雑な動作を学習できるディープ ニューラル ネットワークを実装することができます。他の機械学習技術とは異なり、ラベルがあるかないかにかかわらず、事前定義された学習データセットは必要ありません。一般的に必要なものは、対象の環境を表現するシミュレーション モデルだけです。

MATLAB®、Simulink®、および Reinforcement Learning Toolbox™ を使用して、意思決定システムの設計と展開のための完全なワークフローを実行できます。以下を行うことができます。

  • シンプルな制御システム、自律システム、ロボティクス、スケジューリング問題などの例を用いて、深層強化学習を開始
  • わずかなコード変更のみで、汎用の強化学習アルゴリズムを素早く切り替え、評価、比較
  • MATLAB や Simulink で環境をモデル化
  • ディープ ニューラル ネットワークを使用して、画像、動画、およびセンサーデータに基づく複雑な深層強化学習方策を定義
  • ローカルコアやクラウドを使用して複数のシミュレーションを並行実行することで、方策の学習を高速化
  • 深層強化学習方策を組み込みデバイスに展開
強化学習の図

深層強化学習エージェント

深層強化学習エージェントは、入力としての状態から出力としてのアクションへのマッピングを実行するディープ ニューラル ネットワーク方策と、該当する方策を更新するアルゴリズムで構成されます。広く利用されているアルゴリズムは、Deep Q-Network (DQN)、Deep Deterministic Policy Gradient (DDPG)、Soft Actor Critic (SAC)、Proximal Policy Optimization (PPO) などです。アルゴリズムは、環境から収集した観測値と報酬に基づいて方策を更新し、期待される長期的な報酬を最大化します。

Reinforcement Learning Toolbox は、プログラムから、または強化学習デザイナーアプリを用いて対話的に、深層強化学習エージェントを作成するのに役立ちます。広く利用されているアルゴリズムをそのまま選択したり、利用可能なテンプレートや例を使用してカスタムのアルゴリズムを実装したりできます。

強化学習の図

関連情報

MATLAB および Simulink による環境のモデル化

深層強化学習アルゴリズムを用いた学習は、エージェントが周囲の環境とやりとりする動的なプロセスです。ロボティクスや自律システムのなどのアプリケーションの場合、実際のハードウェアを使用してこの学習を行うことは費用がかかるうえに危険を伴います。そのため、深層強化学習では、シミュレーションを通じてデータを生成する環境の仮想モデルが推奨されています。

MATLAB および Simulink で環境のモデルを構築して、システムダイナミクス、エージェントが実行するアクションによる影響、実行されたアクションの利点を評価する報酬を記述できます。これらのモデルは本質的に連続または離散しており、さまざまなレベルの忠実度でシステムを表すことができます。さらに、シミュレーションを並列化して学習を高速化できます。場合によっては、最小限の修正によって、システムの既存の MATLAB および Simulink モデルを深層強化学習で再利用できる場合があります。

関連情報

MATLAB および Simulink による環境のモデル化

例およびリファレンス アプリケーション

倒立振子のバランス制御、迷路の探索、カートポールでのバランス制御などの簡単な問題について方策の学習を行うことで、深層強化学習を開始します。自律走行車向けに、アダプティブ クルーズ コントロール (ACC) および車線維持支援用のシステムを設計することもできます。また、深層強化学習は、軌道計画などのロボティクス アプリケーションや、歩行などの動作指導にも利用できます。

強化学習の図

関連情報