このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
Reinforcement Learning Toolbox 入門
Reinforcement Learning Toolbox™ は、DQN、PPO、SAC、DDPG などの強化学習アルゴリズムを使用して方策の学習を行うためのアプリ、関数、および Simulink® ブロックを提供します。その方策を使用して、リソース割り当て、ロボティクス、自律システムといった複雑な用途のためのコントローラーや判定アルゴリズムを実装できます。
このツールボックスを使用すると、方策と価値関数を深層ニューラル ネットワークやルックアップ テーブルを使用して表現し、MATLAB® または Simulink でモデル化された環境とのやり取りを通じてそれらに学習させることができます。ツールボックスで提供される単一エージェントまたは複数エージェントの強化学習アルゴリズムを評価したり、独自の強化学習アルゴリズムを開発したりできます。ハイパーパラメーター設定の実験や、学習の進行状況の監視、学習済みのエージェントのシミュレーションを、アプリを使って対話的に行うことも、プログラムで行うこともできます。学習のパフォーマンスを向上させるために、シミュレーションを複数の CPU、GPU、コンピューター クラスター、およびクラウドで並列実行できます (Parallel Computing Toolbox™ および MATLAB Parallel Server™ を使用)。
ONNX™ モデル形式を使って、TensorFlow™ Keras や PyTorch などの深層学習フレームワークから既存の方策をインポートできます (Deep Learning Toolbox™ を使用)。最適化された C、C++、および CUDA® コードを生成して、学習済みの方策をマイクロコントローラーや GPU に展開できます。ツールボックスには、使用を開始するのに役立つ参考例が含まれています。
チュートリアル
- MDP 環境での強化学習エージェントの学習
一般的なマルコフ決定過程環境で強化学習エージェントに学習させる。
- 基本グリッド ワールドでの強化学習エージェントの学習
MATLAB でグリッド ワールドを解決するために Q 学習エージェントと SARSA エージェントに学習させる。
- Simulink 環境の作成とエージェントの学習
Simulink で学習環境としてモデル化されたプラントを使用し、強化学習を使ってコントローラーに学習させる。
- 強化学習デザイナーを使用したエージェントの設計と学習
強化学習デザイナー アプリを使用して、カートポール システム用の DQN エージェントの設計および学習を行う。
強化学習について
- 強化学習とは
強化学習は目標指向型の計算手法で、コンピューターが不確実な動的環境とやり取りすることによってタスクの実行を学習します。
- 制御システム用途での強化学習
強化学習エージェントに学習させてプラントを制御できます。
- Reinforcement Learning Environments
Model environment dynamics using a MATLAB object that generates rewards and observations in response to agents actions.