Reinforcement Learning Toolbox

DDPG、DQN、SAC、PPO など、Reinforcement Learning Toolbox で使用できる一連の学習アルゴリズム。

強化学習エージェント

DQN、PPO、SAC などの広く利用されているアルゴリズムを使用して、モデルフリーおよびモデルベースの強化学習エージェントを作成します。あるいは、用意されているテンプレートを使用して独自のカスタムのアルゴリズムを作成します。RL Agent ブロックを使用して、エージェントを Simulink に取り込みます。

強化学習デザイナーアプリ

強化学習エージェントの設計、学習、シミュレーションを対話的に行います。後で使用したり展開できるように、学習済みのエージェントを MATLAB にエクスポートします。

報酬信号

エージェントが目標をどの程度達成しているかを測定する報酬信号を作成します。Model Predictive Control Toolbox または Simulink Design Optimization で定義された制御仕様から自動的に報酬関数を生成します。

方策表現

ツールボックスが提案するニューラル ネットワーク アーキテクチャを使用して、すぐに始めることができます。または、Deep Learning Toolbox の層やディープ ネットワーク デザイナー アプリを使用して、ルックアップテーブルを確認したり、手動でニューラル ネットワークの方策を定義したりできます。

強化学習の学習

環境との相互作用を通じて、または既存のデータを使用して、エージェントの学習を行います。シングルエージェントおよびマルチエージェントの学習を検討します。学習を行いながら、学習データを記録および表示し、進捗を監視します。

複数のワーカーが並列で分散強化学習用データを生成。

分散コンピューティング

Parallel Computing ToolboxMATLAB Parallel Server により、マルチコア コンピューター、クラウドリソース、または計算クラスターを使用して学習を高速化します。GPU を活用して、勾配の計算や予測などの演算を高速化します。

四足歩行ロボットの Simulink モデルのスクリーンショット。

環境のモデル化

MATLABSimulink を使用して強化学習エージェントとシームレスに相互作用する環境をモデル化します。サードパーティのモデリングツールとインターフェイス接続します。

コードの生成と展開

学習済みの方策から C/C++ および CUDA コードを自動生成し、組み込みデバイスに展開します。MATLAB CompilerMATLAB Production Server を使用して、学習済みの方策をスタンドアロン アプリケーション、C/C++ 共有ライブラリなどの形式で実稼働システムに展開します。

参照例

ロボティクス、自動運転、キャリブレーション、スケジューリングなどのアプリケーション向けにコントローラーや意思決定アルゴリズムを設計します。参照例を参考にして、すぐに始めることができます。