エージェント
強化学習エージェントの作成と構成
強化学習エージェントは、環境から観測値と報酬を受け取り、環境にアクションを返します。学習が実行されている間、エージェントはパラメーターを継続的に更新して、特定の環境の方策を改善します。
Reinforcement Learning Toolbox™ ソフトウェアは、Q 学習、DQN、PG、AC、DDPG、TD3、SAC、PPO などのいくつかの一般的なアルゴリズムを使用する組み込みの強化学習エージェントを提供します。独自のカスタム エージェントを実装することもできます。
エージェントの概要については、強化学習エージェントを参照してください。方策、価値関数、アクターおよびクリティックの概要については、Create Policies and Value Functionsを参照してください。
アプリ
強化学習デザイナー | 強化学習エージェントの設計、学習、およびシミュレーション (R2021a 以降) |
ブロック
RL Agent | 強化学習エージェント |
関数
トピック
エージェントの基礎
- 強化学習エージェント
いくつかの標準的な強化学習アルゴリズムのいずれかを使用してエージェントを作成することも、独自のカスタム エージェントを定義することもできます。 - Create Agents Using Reinforcement Learning Designer
Interactively create or import agents for training using the Reinforcement Learning Designer app.
エージェント タイプ
- Q 学習エージェント
強化学習用の Q 学習エージェントを作成する。 - SARSA Agents
Create SARSA agents for reinforcement learning. - 深層 Q ネットワーク (DQN) エージェント
強化学習用の DQN エージェントを作成する。 - Policy Gradient (PG) Agents
Create policy gradient agents for reinforcement learning. - Actor-Critic (AC) Agents
Create actor-critic agents for reinforcement learning. - Proximal Policy Optimization (PPO) Agents
Create PPO agents for reinforcement learning. - Trust Region Policy Optimization (TRPO) Agents
Create TRPO agents for reinforcement learning. - 深層決定論的方策勾配 (DDPG) エージェント
強化学習用の DDPG エージェントを作成する。 - 双生遅延深層決定論的 (TD3) 方策勾配エージェント
強化学習用の TD3 エージェントを作成する。 - ソフト actor-critic (SAC) エージェント
強化学習用の SAC エージェントを作成する。 - Model-Based Policy Optimization (MBPO) Agents
A model-based (MBPO) reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training.
カスタム エージェント
- Create Custom Reinforcement Learning Agents
Create custom agents. - Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function. - Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function.