学習が実行されている間、ほとんどのエージェントは、アクターかクリティック、またはその両方に依存します。アクターは、実行するアクションを選択する方策を学習します。クリティックは、方策の価値を推定する価値 (または Q 値) 関数を学習します。
Reinforcement Learning Toolbox™ は、アクターおよびクリティック用の関数近似器オブジェクトと、カスタム ループおよび展開用の方策オブジェクトを提供します。近似器オブジェクトは、深層ニューラル ネットワーク、線形基底関数、ルックアップ テーブルなどのさまざまな近似モデルを内部的に使用できます。
方策、価値関数、アクターおよびクリティックの概要については、Create Policies and Value Functionsを参照してください。
Policy | 強化学習方策 (R2022b 以降) |
rlTable | 値テーブルまたは Q テーブル |
rlValueFunction | Value function approximator object for reinforcement learning agents (R2022a 以降) |
rlQValueFunction | Q-Value function approximator with a continuous or discrete action space reinforcement learning agents (R2022a 以降) |
rlVectorQValueFunction | Vector Q-value function approximator with hybrid or discrete action space for reinforcement learning agents (R2022a 以降) |
rlContinuousDeterministicActor | Deterministic actor with a continuous action space for reinforcement learning agents (R2022a 以降) |
rlDiscreteCategoricalActor | Stochastic categorical actor with a discrete action space for reinforcement learning agents (R2022a 以降) |
rlContinuousGaussianActor | Stochastic Gaussian actor with a continuous action space for reinforcement learning agents (R2022a 以降) |
getModel | Get approximation model from function approximator object (R2020b 以降) |
setModel | Set approximation model in function approximator object (R2020b 以降) |
getLearnableParameters | Obtain learnable parameter values from agent, function approximator, or policy object |
setLearnableParameters | Set learnable parameter values of agent, function approximator, or policy object |
rlNormalizer | Configure normalization for input of function approximator object (R2024a 以降) |
getNormalizer | Get normalizer from function approximator object (R2024a 以降) |
setNormalizer | Set normalizer in function approximator object (R2024a 以降) |
normalize | Normalize input data using method defined in normalizer object (R2024a 以降) |
rlOptimizerOptions | Optimization options for actors and critics (R2022a 以降) |
getGreedyPolicy | Extract greedy (deterministic) policy object from agent (R2022a 以降) |
getExplorationPolicy | Extract exploratory (stochastic) policy object from agent (R2023a 以降) |
rlMaxQPolicy | Policy object to generate discrete max-Q actions for custom training loops and application deployment (R2022a 以降) |
rlEpsilonGreedyPolicy | Policy object to generate discrete epsilon-greedy actions for custom training loops (R2022a 以降) |
rlDeterministicActorPolicy | Policy object to generate continuous deterministic actions for custom training loops and application deployment (R2022a 以降) |
rlAdditiveNoisePolicy | Policy object to generate continuous noisy actions for custom training loops (R2022a 以降) |
rlStochasticActorPolicy | Policy object to generate stochastic actions for custom training loops and application deployment (R2022a 以降) |
ニューラル ネットワーク環境用の近似器
rlContinuousDeterministicTransitionFunction | Deterministic transition function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousGaussianTransitionFunction | Stochastic Gaussian transition function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousDeterministicRewardFunction | Deterministic reward function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousGaussianRewardFunction | Stochastic Gaussian reward function approximator object for neural network-based environment (R2022a 以降) |
rlIsDoneFunction | Is-done function approximator object for neural network-based environment (R2022a 以降) |
getAction | Obtain action from agent, actor, or policy object given environment observations (R2020a 以降) |
getValue | Obtain estimated value from a critic given environment observations and actions (R2020a 以降) |
getMaxQValue | Obtain maximum estimated value over all possible actions from a Q-value function critic with discrete action space, given environment observations (R2020a 以降) |
evaluate | Evaluate function approximator object given observation (or observation-action) input data (R2022a 以降) |
深層ニューラル ネットワーク層
quadraticLayer | Quadratic layer for actor or critic network |
scalingLayer | アクターまたはクリティック ネットワークのスケーリング層 |
softplusLayer | アクター ネットワークまたはクリティック ネットワークのソフトプラス層 (R2020a 以降) |
featureInputLayer | 特徴入力層 (R2020b 以降) |
reluLayer | 正規化線形ユニット (ReLU) 層 |
tanhLayer | 双曲線正接 (tanh) 層 |
fullyConnectedLayer | 全結合層 |
lstmLayer | 再帰型ニューラル ネットワーク (RNN) 用の長短期記憶 (LSTM) 層 |
softmaxLayer | ソフトマックス層 |
- Create Policies and Value Functions
Specify policies and value functions using function approximators, such as deep neural networks.
- Import Neural Network Models Using ONNX
You can import existing policies from other deep learning frameworks using the ONNX™ model format.
次の MATLAB コマンドに対応するリンクがクリックされました。
コマンドを MATLAB コマンド ウィンドウに入力して実行してください。Web ブラウザーは MATLAB コマンドをサポートしていません。
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
- América Latina (Español)
- Canada (English)
- United States (English)
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)