Main Content

Reinforcement Learning Toolbox

強化学習を使用した方策の設計と学習

Reinforcement Learning Toolbox™ は、DQN、PPO、SAC、DDPG などの強化学習アルゴリズムを使用して方策の学習を行うためのアプリ、関数、および Simulink® ブロックを提供します。その方策を使用して、リソース割り当て、ロボティクス、自律システムといった複雑な用途のためのコントローラーや判定アルゴリズムを実装できます。

このツールボックスを使用すると、方策と価値関数を深層ニューラル ネットワークやルックアップ テーブルを使用して表現し、MATLAB® または Simulink でモデル化された環境とのやり取りを通じてそれらに学習させることができます。ツールボックスで提供される単一エージェントまたは複数エージェントの強化学習アルゴリズムを評価したり、独自の強化学習アルゴリズムを開発したりできます。ハイパーパラメーター設定の実験や、学習の進行状況の監視、学習済みのエージェントのシミュレーションを、アプリを使って対話的に行うことも、プログラムで行うこともできます。学習のパフォーマンスを向上させるために、シミュレーションを複数の CPU、GPU、コンピューター クラスター、およびクラウドで並列実行できます (Parallel Computing Toolbox™ および MATLAB Parallel Server™ を使用)。

ONNX™ モデル形式を使って、TensorFlow™ Keras や PyTorch などの深層学習フレームワークから既存の方策をインポートできます (Deep Learning Toolbox™ を使用)。最適化された C、C++、および CUDA® コードを生成して、学習済みの方策をマイクロコントローラーや GPU に展開できます。ツールボックスには、使用を開始するのに役立つ参考例が含まれています。

Reinforcement Learning Toolbox 入門

Reinforcement Learning Toolbox の基礎を学ぶ

環境

強化学習環境のダイナミクスと出力をモデル化する

エージェント

強化学習エージェントの作成と構成

方策と価値関数

方策と価値関数の近似器 (アクターやクリティックなど) を定義する

学習とシミュレーション

強化学習エージェントの学習とシミュレーション

方策の展開

コード生成および学習済みの方策の展開

用途

強化学習を適用する方法の例