メインコンテンツ

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

学習とシミュレーション

強化学習エージェントの学習とシミュレーション

学習が実行されている間、エージェントはパラメーターを継続的に更新して、任意の環境に最適な方策を学習します。シミュレーションが実行されている間、エージェントは環境から観測値と報酬を受け取り、パラメーターを更新せずに環境にアクションを返します。

Reinforcement Learning Toolbox™ は、エージェントに学習させ、シミュレーションを通じて学習結果を検証するための関数を提供します。エージェントの学習とシミュレーションの概要については、Train Reinforcement Learning Agentsを参照してください。

アプリ

強化学習デザイナー強化学習エージェントの設計、学習、およびシミュレーション (R2021a 以降)

関数

すべて展開する

trainTrain reinforcement learning agents within a specified environment
rlTrainingOptionsOptions for training reinforcement learning agents
rlMultiAgentTrainingOptionsOptions for training multiple reinforcement learning agents (R2022a 以降)
trainWithEvolutionStrategyTrain DDPG, TD3 or SAC agent using an evolutionary strategy within a specified environment (R2023b 以降)
rlEvolutionStrategyTrainingOptionsOptions for training off-policy reinforcement learning agents using an evolutionary strategy (R2023b 以降)
showVisualize a training result object in a new Reinforcement Learning Training Monitor window (R2024a 以降)
trainFromDataTrain off-policy reinforcement learning agent using existing data (R2023a 以降)
rlTrainingFromDataOptionsOptions to train reinforcement learning agents using existing data (R2023a 以降)
showVisualize a training result object in a new Reinforcement Learning Training Monitor window (R2024a 以降)
rlEvaluatorOptions for evaluating reinforcement learning agents during training (R2023b 以降)
rlCustomEvaluatorCustom object for evaluating reinforcement learning agents during training (R2023b 以降)
rlDataLoggerCreate either a file logger object or a monitor logger object to log training data (R2022b 以降)
rlDataViewerOpen Reinforcement Learning Data Viewer tool (R2023a 以降)
FileLoggerLog reinforcement learning training data to MAT files (R2022b 以降)
MonitorLoggerLog reinforcement learning training data to monitor window (R2022b 以降)
trainingProgressMonitor深層学習カスタム学習ループの学習進行状況の監視およびプロット (R2022b 以降)
setupSet up reinforcement learning environment or initialize data logger object (R2022a 以降)
storeStore data in the internal memory of a (file or monitor) logger object (R2022b 以降)
writeロガーの内部メモリからロギング ターゲットへの保存データの転送 (R2022b 以降)
cleanupClean up reinforcement learning environment or data logger object (R2022a 以降)
simSimulate trained reinforcement learning agents within specified environment
rlSimulationOptionsOptions for simulating a reinforcement learning agent within an environment
rlReplayMemoryReplay memory experience buffer (R2022a 以降)
rlPrioritizedReplayMemoryReplay memory experience buffer with prioritized sampling (R2022b 以降)
rlHindsightReplayMemoryHindsight replay memory experience buffer (R2023a 以降)
rlHindsightPrioritizedReplayMemoryHindsight replay memory experience buffer with prioritized sampling (R2023a 以降)
appendAppend experiences to replay memory buffer (R2022a 以降)
sampleSample experiences from replay memory buffer (R2022a 以降)
resizeリプレイ メモリ経験バッファーのサイズ変更 (R2022b 以降)
allExperiencesReturn all experiences in replay memory buffer (R2022b 以降)
validateExperienceValidate experiences for replay memory (R2023a 以降)
generateHindsightExperiencesGenerate hindsight experiences from hindsight experience replay buffer (R2023a 以降)
rlOptimizerCreates an optimizer object for actors and critics (R2022a 以降)
runEpisodeSimulate reinforcement learning environment against policy or agent (R2022a 以降)
syncParametersModify the learnable parameters of one approximator towards the learnable parameters of another approximator (R2022a 以降)
updateUpdate the state of on optimizer object and a set of learnable parameters using the gradient value (R2022a 以降)
evaluateEvaluate function approximator object given observation (or observation-action) input data (R2022a 以降)
setupSet up reinforcement learning environment or initialize data logger object (R2022a 以降)
cleanupClean up reinforcement learning environment or data logger object (R2022a 以降)
FutureObject that supports deferred outputs for reinforcement learning environment simulations running on workers (R2022a 以降)
fetchNextRetrieve next available unread outputs from a reinforcement learning environment simulations running on workers (R2022a 以降)
fetchOutputsRetrieve results from all reinforcement learning environment simulations running on workers (R2022a 以降)
cancelCancel unfinished reinforcement learning environment simulations on workers (R2022a 以降)
waitWait for reinforcement learning environment simulations running on a workers to finish (R2022a 以降)
dlfevalカスタム学習ループ用の深層学習モデルの評価
dlaccelerateAccelerate deep learning function for custom training loops (R2021a 以降)
AcceleratedFunctionAccelerated deep learning function (R2021a 以降)
syncParametersModify the learnable parameters of one approximator towards the learnable parameters of another approximator (R2022a 以降)
getLearnableParametersObtain learnable parameter values from agent, function approximator, or policy object
setLearnableParametersSet learnable parameter values of agent, function approximator, or policy object
policyParametersObtain structure of policy parameters to update policy during simulation or deployment (R2025a 以降)
updatePolicyParametersUpdate policy according to structure of policy parameters given as input argument (R2025a 以降)

ブロック

RL Agent強化学習エージェント
Policy強化学習方策 (R2022b 以降)

トピック

学習とシミュレーションの基礎

強化学習デザイナー アプリの使用

Simulink 環境のエージェントの学習

複数のプロセスと GPU の使用

高度な学習とシミュレーション

学習データのログ記録とハイパーパラメーターの調整

マルチエージェント学習

カスタム エージェントと学習アルゴリズムの開発

モデル ベースの方策最適化エージェントの学習