Main Content

エージェント

強化学習エージェントの作成と構成

強化学習エージェントは、環境から観測値と報酬を受け取り、環境にアクションを返します。学習が実行されている間、エージェントはパラメーターを継続的に更新して、特定の環境の方策を改善します。

Reinforcement Learning Toolbox™ ソフトウェアは、Q 学習、DQN、PG、AC、DDPG、TD3、SAC、PPO などのいくつかの一般的なアルゴリズムを使用する組み込みの強化学習エージェントを提供します。独自のカスタム エージェントを実装することもできます。

エージェントの概要については、強化学習エージェントを参照してください。方策、価値関数、アクターおよびクリティックの概要については、Create Policies and Value Functionsを参照してください。

アプリ

強化学習デザイナー強化学習エージェントの設計、学習、およびシミュレーション (R2021a 以降)

ブロック

RL Agent強化学習エージェント

関数

すべて展開する

rlQAgentQ-learning reinforcement learning agent
rlSARSAAgentSARSA reinforcement learning agent
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlACAgentActor-critic (AC) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent (R2019b 以降)
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent (R2021b 以降)
rlDDPGAgentDeep deterministic policy gradient (DDPG) reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent (R2020a 以降)
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent (R2020b 以降)
rlQAgentOptionsOptions for Q-learning agent
rlSARSAAgentOptionsOptions for SARSA agent
rlDQNAgentOptionsOptions for DQN agent
rlPGAgentOptionsOptions for PG agent
rlACAgentOptionsOptions for AC agent
rlPPOAgentOptionsOptions for PPO agent (R2019b 以降)
rlTRPOAgentOptionsOptions for TRPO agent (R2021b 以降)
rlDDPGAgentOptionsOptions for DDPG agent
rlTD3AgentOptionsOptions for TD3 agent (R2020a 以降)
rlSACAgentOptionsOptions for SAC agent (R2020b 以降)
rlAgentInitializationOptions強化学習エージェント初期化用のオプション (R2020b 以降)
rlConservativeQLearningOptionsRegularizer options object to train DQN and SAC agents (R2023a 以降)
rlBehaviorCloningRegularizerOptionsRegularizer options object to train DDPG, TD3 and SAC agents (R2023a 以降)
rlMBPOAgentModel-based policy optimization (MBPO) reinforcement learning agent (R2022a 以降)
rlMBPOAgentOptionsOptions for MBPO agent (R2022a 以降)
getActorExtract actor from reinforcement learning agent
getCritic強化学習エージェントからのクリティックの抽出
setActorSet actor of reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getActionObtain action from agent, actor, or policy object given environment observations (R2020a 以降)
rlReplayMemoryReplay memory experience buffer (R2022a 以降)
rlPrioritizedReplayMemoryReplay memory experience buffer with prioritized sampling (R2022b 以降)
rlHindsightReplayMemoryHindsight replay memory experience buffer (R2023a 以降)
rlHindsightPrioritizedReplayMemoryHindsight replay memory experience buffer with prioritized sampling (R2023a 以降)
appendAppend experiences to replay memory buffer (R2022a 以降)
sampleSample experiences from replay memory buffer (R2022a 以降)
resizeリプレイ メモリ経験バッファーのサイズ変更 (R2022b 以降)
allExperiencesReturn all experiences in replay memory buffer (R2022b 以降)
validateExperienceValidate experiences for replay memory (R2023a 以降)
generateHindsightExperiencesGenerate hindsight experiences from hindsight experience replay buffer (R2023a 以降)
getActionInfoObtain action data specifications from reinforcement learning environment, agent, or experience buffer
getObservationInfoObtain observation data specifications from reinforcement learning environment, agent, or experience buffer
resetReset environment, agent, experience buffer, or policy object (R2022a 以降)

トピック

エージェントの基礎

エージェント タイプ

カスタム エージェント