このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
学習とシミュレーション
強化学習エージェントの学習とシミュレーション
学習が実行されている間、エージェントはパラメーターを継続的に更新して、任意の環境に最適な方策を学習します。シミュレーションが実行されている間、エージェントは環境から観測値と報酬を受け取り、パラメーターを更新せずに環境にアクションを返します。
Reinforcement Learning Toolbox™ は、エージェントに学習させ、シミュレーションを通じて学習結果を検証するための関数を提供します。エージェントの学習とシミュレーションの概要については、Train Reinforcement Learning Agentsを参照してください。
アプリ
強化学習デザイナー | 強化学習エージェントの設計、学習、およびシミュレーション (R2021a 以降) |
関数
トピック
学習とシミュレーションの基礎
- Train Reinforcement Learning Agents
Find the optimal policy by training your agent within a specified environment. - 基本グリッド ワールドでの強化学習エージェントの学習
MATLAB® でグリッド ワールドを解決するために Q 学習エージェントと SARSA エージェントに学習させる。 - MDP 環境での強化学習エージェントの学習
一般的なマルコフ決定過程環境で強化学習エージェントに学習させる。
強化学習デザイナー アプリの使用
- Specify Training Options in Reinforcement Learning Designer
Interactively specify options for training reinforcement learning agents using the Reinforcement Learning Designer app. - Specify Simulation Options in Reinforcement Learning Designer
Interactively specify options for simulating reinforcement learning agents using the Reinforcement Learning Designer app. - 強化学習デザイナーを使用したエージェントの設計と学習
強化学習デザイナー アプリを使用して、カートポール システム用の DQN エージェントの設計および学習を行う。 - Tune Hyperparameters Using Reinforcement Learning Designer
Search the hyperparameter space using Reinforcement Learning Designer.
Simulink 環境のエージェントの学習
- DDPG エージェントを使用したタンク内の水位の制御
Simulink® で学習環境としてモデル化されたプラントを使用し、強化学習を使ってコントローラーに学習させる。
複数のプロセスと GPU の使用
- Train Agents Using Parallel Computing and GPUs
Accelerate agent training by running simulations in parallel on multiple cores, GPUs, clusters or cloud resources. - Train AC Agent to Balance Discrete Cart-Pole System Using Parallel Computing
Train an AC agent to control a discrete action space cart-pole system using asynchronous parallel computing. - 並列計算を使用した車線維持支援用 DQN エージェントの学習
並列計算を使用して自動運転アプリケーションのために DQN エージェントに学習させる。
高度な学習とシミュレーション
- Train PPO Agent with Curriculum Learning for a Lane Keeping Application
Train a PPO agent for a lane keeping assist task by gradually increasing task complexity. - Train DQN Agent Using Hindsight Experience Replay
Train a DQN agent in a navigation environment with sparse rewards. - Train Reinforcement Learning Agent Offline to Control Quanser QUBE Pendulum
Train TD3 agent offline to control a Quanser QUBE pendulum. - Train Biped Robot to Walk Using Evolution Strategy-Reinforcement Learning Agents
Train TD3 agent using evolutionary strategy. - ディープ ネットワーク デザイナーを使用した DQN エージェントの作成およびイメージ観測値を使用した学習
Deep Learning Toolbox™ のディープ ネットワーク デザイナー アプリを使用して、強化学習エージェントを作成する。
学習データのログ記録とハイパーパラメーターの調整
- Log Training Data to Disk
Log a variety of data to disk while training an agent. - Train Agent or Tune Environment Parameters Using Parameter Sweeping
Tune a DDPG agent using hyperparameter sweeping. - Tune Hyperparameters Using Bayesian Optimization
Tune reinforcement learning hyperparameters using Bayesian optimization. - Configure Exploration for Reinforcement Learning Agents
Use visualization to configure exploration in reinforcement learning agents.
マルチエージェント学習
- Train Multiple Agents to Perform Collaborative Task
Train two continuous action space PPO agents to collaboratively move an object. - Train Multiple Agents for Area Coverage
Train three discrete action space PPO agents to explore a grid-world environment in a collaborative-competitive manner. - Train Multiple Agents for Path Following Control
Train a DQN and a DDPG agent to collaboratively perform adaptive cruise control and lane keeping assist to follow a path.
カスタム エージェントと学習アルゴリズムの開発
- Train Reinforcement Learning Policy Using Custom Training Loop
Train a reinforcement learning policy using your own custom training loop. - Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function. - Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function. - Custom PPO Training Loop With Random Network Distillation
Use a custom training loop to train a custom PPO policy with random network distillation on a pendulum environment with sparse rewards. - Custom Training Loop with Simulink Action Noise
Use a custom training loop to train a continuous action space reinforcement learning policy in Simulink when action noise is generated within the model.
モデル ベースの方策最適化エージェントの学習
- Train MBPO Agent to Balance Continuous Cart-Pole System
A model-based reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training. - Model-Based Reinforcement Learning Using Custom Training Loop
Create a model-based reinforcement learning agent using a custom training loop.