Policy

強化学習方策

R2022b 以降

ライブラリ:
Reinforcement Learning Toolbox

説明

Policy ブロックを使用して、Simulink^® で強化学習方策をシミュレーションし、展開のためにコードを生成します (Simulink Coder™ を使用)。このブロックは観測値を入力として受け取り、アクションを出力します。方策を完全に特徴付けるために必要な情報が格納された MAT ファイルにこのブロックを関連付けます。また、このファイルは、generatePolicyFunction または generatePolicyBlock によって生成できます。

例

Generate Policy Block for Deployment

Generate a policy block to deploy a trained policy.

ライブスクリプトを開く

端子

入力

すべて展開する

observation — 環境観測値
スカラー | ベクトル | 非バーチャルバス

この端子は環境からの観測信号を受信します。観測信号は、測定値またはその他の瞬間的なシステムデータを表します。複数の観測値がある場合は、Mux ブロックを使用してそれらをベクトル信号に結合できます。非バーチャルバス信号を使用するには、bus2RLSpec を使用します。

出力

すべて展開する

action — 方策のアクション
スカラー | ベクトル | 非バーチャルバス

観測入力に基づいて、方策によって計算されたアクション。この端子をシステムの入力に接続します。非バーチャルバス信号を使用するには、bus2RLSpec を使用します。

メモ

連続行動空間 rlStochasticActorPolicy オブジェクト、または連続行動空間 rlACAgent、rlPGAgent、または rlPPOAgent オブジェクトから生成された方策ブロックは、アクション仕様によって設定された制約を適用しません。このような場合、環境内で行動空間の制約を適用しなければなりません。

パラメーター

すべて展開する

Policy ブロックデータ MAT ファイル — Policy ブロックデータ MAT ファイル
`blockAgentData.mat` (既定値) | ファイル名

方策を完全に特徴付けるために必要な情報が格納された MAT ファイルの名前を入力します。このファイルは、generatePolicyFunction または generatePolicyBlock によって生成されます。generatePolicyBlock を使用してブロックを生成し、既定以外の dataFileName 引数を指定する場合、生成ブロックのこのパラメーターが、指定したファイル名に設定され、ブロックがその生成データファイルに関連付けられます。

Triggered Subsystem (Simulink) や Function-Call Subsystem (Simulink) などの条件付き実行サブシステム内で Policy ブロックを使用するには、SampleTime プロパティが -1 に設定されているエージェントまたは方策オブジェクトからデータファイルを生成しなければなりません。これにより、ブロックが親サブシステムのサンプル時間を継承できるようになります。

プログラムでの使用

ブロックパラメーター: MATFile

型: string、文字ベクトル

既定: "blockAgentData.mat"

ヒント

Embedded Coder^® を使用して並列コードを生成する場合、[並列 for ループの生成] 最適化パラメーターを有効にすると、処理するデータのサイズが大きい場合のパフォーマンスが向上します。ただし、ネットワークやデータが小さい場合は、並列化のためのスレッド初期化のオーバーヘッドによってパフォーマンスが大幅に低下します。この場合、[並列 for ループの生成] を無効にしてください。詳細については、並列 for ループの生成 (Embedded Coder)および coder.MexCodeConfig (MATLAB Coder) を参照してください。

拡張機能

すべて展開する

C/C++ コード生成
Simulink® Coder™ を使用して C および C++ コードを生成します。

バージョン履歴

R2022b で導入

参考

Policy

説明

例

Generate Policy Block for Deployment

端子

入力

observation — 環境観測値 スカラー | ベクトル | 非バーチャル バス

出力

action — 方策のアクション スカラー | ベクトル | 非バーチャル バス

パラメーター

Policy ブロック データ MAT ファイル — Policy ブロック データ MAT ファイル blockAgentData.mat (既定値) | ファイル名

プログラムでの使用

ヒント

拡張機能

C/C++ コード生成 Simulink® Coder™ を使用して C および C++ コードを生成します。

バージョン履歴

参考

関数

オブジェクト

ブロック

トピック

observation — 環境観測値
スカラー | ベクトル | 非バーチャルバス

action — 方策のアクション
スカラー | ベクトル | 非バーチャルバス

Policy ブロックデータ MAT ファイル — Policy ブロックデータ MAT ファイル
`blockAgentData.mat` (既定値) | ファイル名

C/C++ コード生成
Simulink® Coder™ を使用して C および C++ コードを生成します。