このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。
方策と価値関数
学習が実行されている間、ほとんどのエージェントは、アクターかクリティック、またはその両方に依存します。アクターは、実行するアクションを選択する方策を学習します。クリティックは、方策の価値を推定する価値 (または Q 値) 関数を学習します。
Reinforcement Learning Toolbox™ は、アクターおよびクリティック用の関数近似器オブジェクトと、カスタム ループおよび展開用の方策オブジェクトを提供します。近似器オブジェクトは、深層ニューラル ネットワーク、線形基底関数、ルックアップ テーブルなどのさまざまな近似モデルを内部的に使用できます。
方策、価値関数、アクターおよびクリティックの概要については、Create Policies and Value Functionsを参照してください。
ブロック
Policy | 強化学習方策 (R2022b 以降) |
関数
アクターとクリティックの作成
rlTable | 値テーブルまたは Q テーブル |
rlValueFunction | Value function approximator object for reinforcement learning agents (R2022a 以降) |
rlQValueFunction | Q-Value function approximator with a continuous or discrete action space reinforcement learning agents (R2022a 以降) |
rlVectorQValueFunction | Vector Q-value function approximator with hybrid or discrete action space for reinforcement learning agents (R2022a 以降) |
rlContinuousDeterministicActor | Deterministic actor with a continuous action space for reinforcement learning agents (R2022a 以降) |
rlDiscreteCategoricalActor | Stochastic categorical actor with a discrete action space for reinforcement learning agents (R2022a 以降) |
rlContinuousGaussianActor | Stochastic Gaussian actor with a continuous action space for reinforcement learning agents (R2022a 以降) |
エージェント間でのアクターとクリティックの取得および設定
近似モデルと学習可能なパラメーターの取得および設定
getModel | Get approximation model from function approximator object (R2020b 以降) |
setModel | Set approximation model in function approximator object (R2020b 以降) |
getLearnableParameters | Obtain learnable parameter values from agent, function approximator, or policy object |
setLearnableParameters | Set learnable parameter values of agent, function approximator, or policy object |
入力の正規化
rlNormalizer | Configure normalization for input of function approximator object (R2024a 以降) |
getNormalizer | Get normalizer from function approximator object (R2024a 以降) |
setNormalizer | Set normalizer in function approximator object (R2024a 以降) |
normalize | Normalize input data using method defined in normalizer object (R2024a 以降) |
アクターおよびクリティックのための学習オプション
rlOptimizerOptions | Optimization options for actors and critics (R2022a 以降) |
エージェントからの方策オブジェクトの抽出
getGreedyPolicy | Extract greedy (deterministic) policy object from agent (R2022a 以降) |
getExplorationPolicy | Extract exploratory (stochastic) policy object from agent (R2023a 以降) |
カスタム学習および展開のための方策オブジェクトの作成
rlMaxQPolicy | Policy object to generate discrete max-Q actions for custom training loops and application deployment (R2022a 以降) |
rlEpsilonGreedyPolicy | Policy object to generate discrete epsilon-greedy actions for custom training loops (R2022a 以降) |
rlDeterministicActorPolicy | Policy object to generate continuous deterministic actions for custom training loops and application deployment (R2022a 以降) |
rlAdditiveNoisePolicy | Policy object to generate continuous noisy actions for custom training loops (R2022a 以降) |
rlStochasticActorPolicy | Policy object to generate stochastic actions for custom training loops and application deployment (R2022a 以降) |
ニューラル ネットワーク環境用の近似器
rlContinuousDeterministicTransitionFunction | Deterministic transition function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousGaussianTransitionFunction | Stochastic Gaussian transition function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousDeterministicRewardFunction | Deterministic reward function approximator object for neural network-based environment (R2022a 以降) |
rlContinuousGaussianRewardFunction | Stochastic Gaussian reward function approximator object for neural network-based environment (R2022a 以降) |
rlIsDoneFunction | Is-done function approximator object for neural network-based environment (R2022a 以降) |
アクションおよび価値の取得
getAction | Obtain action from agent, actor, or policy object given environment observations (R2020a 以降) |
getValue | Obtain estimated value from a critic given environment observations and actions (R2020a 以降) |
getMaxQValue | Obtain maximum estimated value over all possible actions from a Q-value function critic with discrete action space, given environment observations (R2020a 以降) |
evaluate | Evaluate function approximator object given observation (or observation-action) input data (R2022a 以降) |
深層ニューラル ネットワーク層
quadraticLayer | Quadratic layer for actor or critic network |
scalingLayer | アクターまたはクリティック ネットワークのスケーリング層 |
softplusLayer | アクター ネットワークまたはクリティック ネットワークのソフトプラス層 (R2020a 以降) |
featureInputLayer | 特徴入力層 (R2020b 以降) |
reluLayer | 正規化線形ユニット (ReLU) 層 |
tanhLayer | 双曲線正接 (tanh) 層 |
fullyConnectedLayer | 全結合層 |
lstmLayer | 再帰型ニューラル ネットワーク (RNN) 用の長短期記憶 (LSTM) 層 |
softmaxLayer | ソフトマックス層 |
トピック
- Create Policies and Value Functions
Specify policies and value functions using function approximators, such as deep neural networks.
- Import Neural Network Models Using ONNX
You can import existing policies from other deep learning frameworks using the ONNX™ model format.
MATLAB コマンド
次の MATLAB コマンドに対応するリンクがクリックされました。
コマンドを MATLAB コマンド ウィンドウに入力して実行してください。Web ブラウザーは MATLAB コマンドをサポートしていません。
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)