メインコンテンツ

エージェント

強化学習エージェントの作成と構成

強化学習エージェントは、環境から観測値と報酬を受け取り、環境にアクションを返します。学習が実行されている間、エージェントはパラメーターを継続的に更新して、特定の環境の方策を改善します。

Reinforcement Learning Toolbox™ ソフトウェアは、Q 学習、DQN、PG、AC、DDPG、TD3、SAC、PPO などのいくつかの一般的なアルゴリズムを使用する組み込みの強化学習エージェントを提供します。独自のカスタム エージェントを実装することもできます。

エージェントの概要については、強化学習エージェントを参照してください。方策、価値関数、アクターおよびクリティックの概要については、Create Policies and Value Functionsを参照してください。

アプリ

強化学習デザイナー強化学習エージェントの設計、学習、およびシミュレーション (R2021a 以降)

ブロック

RL Agent強化学習エージェント

関数

すべて展開する

rlQAgentQ 学習の強化学習エージェント
rlSARSAAgentSARSA reinforcement learning agent
rlLSPIAgentLeast square policy iteration reinforcement learning agent (R2025a 以降)
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlACAgentActor-critic (AC) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent (R2021b 以降)
rlDDPGAgent深層決定論的方策勾配 (DDPG) 強化学習エージェント
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent
rlQAgentOptionsOptions for Q-learning agent
rlSARSAAgentOptionsOptions for SARSA agent
rlLSPIAgentOptionsOptions for LSPI agent (R2025a 以降)
rlDQNAgentOptionsOptions for DQN agent
rlPGAgentOptionsOptions for PG agent
rlACAgentOptionsOptions for AC agent
rlPPOAgentOptionsOptions for PPO agent
rlTRPOAgentOptionsOptions for TRPO agent (R2021b 以降)
rlDDPGAgentOptionsOptions for DDPG agent
rlTD3AgentOptionsOptions for TD3 agent
rlSACAgentOptionsOptions for SAC agent
rlAgentInitializationOptions強化学習エージェント初期化用のオプション
rlConservativeQLearningOptionsRegularizer options object to train DQN and SAC agents (R2023a 以降)
rlBehaviorCloningRegularizerOptionsRegularizer options object to train DDPG, TD3 and SAC agents (R2023a 以降)
rlMBPOAgentModel-based policy optimization (MBPO) reinforcement learning agent (R2022a 以降)
rlMBPOAgentOptionsOptions for MBPO agent (R2022a 以降)
getActor強化学習エージェントからのアクターの抽出
getCritic強化学習エージェントからのクリティックの抽出
setActorSet actor of reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getActionObtain action from agent, actor, or policy object given environment observations
rlReplayMemoryReplay memory experience buffer (R2022a 以降)
rlPrioritizedReplayMemoryReplay memory experience buffer with prioritized sampling (R2022b 以降)
rlHindsightReplayMemoryHindsight replay memory experience buffer (R2023a 以降)
rlHindsightPrioritizedReplayMemoryHindsight replay memory experience buffer with prioritized sampling (R2023a 以降)
appendAppend experiences to replay memory buffer (R2022a 以降)
sampleSample experiences from replay memory buffer (R2022a 以降)
resizeリプレイ メモリ経験バッファーのサイズ変更 (R2022b 以降)
allExperiencesReturn all experiences in replay memory buffer (R2022b 以降)
validateExperienceValidate experiences for replay memory (R2023a 以降)
generateHindsightExperiencesGenerate hindsight experiences from hindsight experience replay buffer (R2023a 以降)
getActionInfoObtain action data specifications from reinforcement learning environment, agent, or experience buffer
getObservationInfoObtain observation data specifications from reinforcement learning environment, agent, or experience buffer
resetReset environment, agent, experience buffer, or policy object (R2022a 以降)

トピック

エージェントの基礎

エージェント タイプ

カスタム エージェント