Main Content

rlAgentInitializationOptions

強化学習エージェント初期化用のオプション

R2020b 以降

説明

rlAgentInitializationOptions オブジェクトを使用して、エージェントの初期化オプションを指定します。エージェントを作成するには、rlACAgent などのエージェント作成関数を使用します。

作成

説明

initOpts = rlAgentInitializationOptions は、既定のネットワークで強化学習エージェントを初期化するための既定のオプション オブジェクトを作成します。初期化オプションを使用して、エージェント ネットワークのそれぞれの隠れ層のユニット数や再帰型ニューラル ネットワークを使用するかどうかなど、エージェントの初期化パラメーターを指定します。

initOpts = rlAgentInitializationOptions(Name=Value) は、初期化オプション オブジェクトを作成し、名前と値の引数を 1 つ以上使用して、そのプロパティを設定します。

プロパティ

すべて展開する

エージェント ネットワークのそれぞれの隠れ全結合層 (ネットワーク出力の直前の全結合層を除く) のユニット数。正の整数として指定します。設定した値は、すべての LSTM 層にも適用されます。

例: 64

再帰型ニューラル ネットワークを使用するかどうかのフラグ。logical 値として指定します。

UseRNNtrue に設定すると、ソフトウェアはエージェントの作成時に、出力モードが sequence に設定された再帰 LSTM 層をエージェント ネットワークの出力パスに挿入します。LSTM の詳細については、長短期記憶ニューラル ネットワークを参照してください。

メモ

TRPO エージェントは再帰型ネットワークをサポートしません。

例: true

正規化方式。次のいずれかの値として指定します。

  • "none" — 関数近似器オブジェクトの入力を正規化しません。

  • "rescale-zero-one" — 入力を 0 ~ 1 の区間に再スケーリングして正規化します。正規化された入力 Y は (U–Min)./(UpperLimitLowerLimit) になります。ここで、U は非正規化入力です。LowerLimit より小さい非正規化入力値は、0 より小さい正規化値になることに注意してください。同様に、正規化されていない入力値が UpperLimit よりも大きい場合、正規化された値は 1 より大きくなります。ここで、UpperLimitLowerLimit は、入力チャネルの仕様オブジェクトで定義された対応するプロパティです。

  • "rescale-symmetric" — 入力を –1 ~ 1 の区間に再スケーリングして正規化します。正規化された入力 Y は 2(U–LowerLimit)./(UpperLimitLowerLimit) – 1 になります。ここで、U は非正規化入力です。LowerLimit より小さい非正規化入力値は、-1 より小さい正規化値になることに注意してください。同様に、正規化されていない入力値が UpperLimit よりも大きい場合、正規化された値は 1 より大きくなります。ここで、UpperLimitLowerLimit は、入力チャネルの仕様オブジェクトで定義された対応するプロパティです。

メモ

rlAgentInitializationOptionsNormalization プロパティを指定すると、正規化は、UpperLimit プロパティと LowerLimit プロパティの両方が定義されている rlNumericSpec 仕様オブジェクトに対応する近似器入力チャネルにのみ適用されます。エージェントを作成した後、setNormalizer を使用して、任意の正規化方式を使用するノーマライザーを割り当てることができます。ノーマライザー オブジェクトの詳細については、rlNormalizer を参照してください。

例: "rescale-symmetric"

オブジェクト関数

rlACAgentActor-critic (AC) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlDDPGAgentDeep deterministic policy gradient (DDPG) reinforcement learning agent
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent

すべて折りたたむ

エージェント初期化オプション オブジェクトを作成します。それぞれの全結合層の隠れニューロンの数と再帰型ネットワークの使用を指定します。

initOpts = rlAgentInitializationOptions(NumHiddenUnit=64,UseRNN=true)
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 64
           UseRNN: 1
    Normalization: "none"

ドット表記を使用して、オプションを変更することができます。たとえば、隠れユニットの数を 128 に設定します。

initOpts.NumHiddenUnit = 128
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 128
           UseRNN: 1
    Normalization: "none"

エージェントを作成するには、エージェント コンストラクター関数の入力引数として initOpts を使用します。

バージョン履歴

R2020b で導入