Reinforcement Learning Toolbox
強化学習を用いて方策を設計および学習
Reinforcement Learning Toolbox™ では、DQN、A2C、および DDPG などの強化学習アルゴリズムを使用した方策の学習のための関数とブロックが提供されます。これらの方策を使用して、ロボットや自律システムなどの複雑なシステムのためのコントローラーと意思決定アルゴリズムを実装できます。ディープ ニューラル ネットワーク、多項式、またはルックアップテーブルを使用して方策を実装できます。
このツールボックスで、MATLAB® または Simulink® モデルで表現された環境に作用させ、方策を学習させることができます。アルゴリズムの評価、ハイパーパラメーター設定での実験、および学習進捗の監視が可能です。学習のパフォーマンス改善のため、クラウド、コンピューター クラスター、および GPU 上でシミュレーションを並列実行できます (Parallel Computing Toolbox™ と MATLAB Parallel Server™ を使用)。
ONNX™ モデルフォーマットで既存の方策を TensorFlow™、Keras、および PyTorch などのディープラーニング フレームワークからインポートできます (Deep Learning Toolbox™ を使用)。最適化された C、C++、および CUDA コードを生成して、学習済み方策をマイクロコントローラーと GPU に展開できます。
このツールボックスには、強化学習を用いてロボットや自動運転アプリケーションのコントローラーを設計する、リファレンスサンプルが付属します。
詳細を見る:
無料の eBook
MATLAB および Simulink による強化学習
強化学習アルゴリズム
Deep Q-Network (DQN)、Advantage Actor Critic (A2C)、Deep Deterministic Policy Gradients (DDPG)、および他の組み込みアルゴリズムを使用してエージェントを実装します。テンプレートを使用して方策の学習のためのカスタムエージェントを実装します。
ディープ ニューラル ネットワークを使用した方策と価値関数の表現
大きな状態行動空間を持つ複雑なシステムのためディープ ニューラル ネットワークを使用します。Deep Learning Toolbox のネットワークとアーキテクチャを使用して方策を定義します。他のディープラーニング フレームワークとの相互運用性のため ONNX モデルをインポートします。
エージェント用の Simulink ブロック
Simulink で強化学習エージェントを実装し学習させます。
Simulink と Simscape 環境
Simulink と Simscape™ モデルを使用して環境を表現します。モデル内で観測、行動、および報酬信号を指定します。
MATLAB 環境
MATLAB の関数とクラスを使用して環境を表現します。MATLAB ファイル内で観測、行動、および報酬変数を指定します。
分散コンピューティングおよびマルチコアによる高速化
Parallel Computing Toolbox と MATLAB Parallel Server を使用してマルチコア コンピューター、クラウドリソース、またはコンピューター クラスターで並列シミュレーションを実行して学習を高速化します。
GPU 高速化
高性能 NVIDIA® GPU によりディープ ニューラル ネットワーク学習と推論を加速します。Parallel Computing Toolbox と、3.0 以上の計算能力を持つ、最大限 CUDA® に対応した NVIDIA GPU で MATLAB を使用できます。
コード生成
GPU Coder™ を使用して、学習させた方策を表現する MATLAB コードから最適化された CUDA コードを生成します。MATLAB Coder™ を使用して C/C++ コードを生成し、方策を展開します。
MATLAB Compiler のサポート
MATLAB Compiler™ および MATLAB Compiler SDK™ を使用して、学習済みの方策を C/C++ 共有ライブラリ、Microsoft® .NET アセンブリ、Java® クラス、Python® パッケージとして展開します。
入門
倒立振子のバランス制御、格子世界における操作、棒立てシステムでのバランス制御などのため、強化学習ベースのコントローラーを実装します。
自動運転アプリケーション
車間距離制御と車線逸脱防止支援システムのためのコントローラーを設計します。
ロボット工学
強化学習を用いてロボットのコントローラーを設計します。
TD3 エージェント
DDPG エージェントより優れた学習スピードと性能を示すことの多い、TD3 (Twin-Delayed Deep Deterministic Policy Gradient)エージェントの作成
連続行動空間向け新規エージェント
連続行動空間に対する PPO、TD3、AC、および PG エージェントの使用
LSTM 方策
DQN および PPO エージェント向け長期短期記憶 (LSTM) ネットワークを使用したニューラル ネットワーク 方策の作成
これらの機能やそれに対応する機能の詳細については、リリースノートをご覧ください。