photo

泽宇


Last seen: 1年以上 前 2024 年からアクティブ

Followers: 0   Following: 0

統計

MATLAB Answers

2 質問
0 回答

ランク
296,701
of 300,895

評判
0

コントリビューション
2 質問
0 回答

回答採用率
0.0%

獲得投票数
0

ランク
 of 21,106

評判
N/A

平均評価
0.00

コントリビューション
0 ファイル

ダウンロード
0

ALL TIME ダウンロード
0

ランク

of 171,552

コントリビューション
0 問題
0 解答

スコア
0

バッジ数
0

コントリビューション
0 投稿

コントリビューション
0 パブリック チャネル

平均評価

コントリビューション
0 ハイライト

平均いいねの数

Feeds

表示方法

質問


When using the reinforcement learning toolbox, when training the agent, there will be a problem that action is the boundary.
我在用深matlab强化学习工具箱进行自定义环境智能体训练,在第一次训练时(未得到奖励时),智能体给出的action是action约束范围内的值,然而在第二次训练时(得到第一次训练的奖励后),智能体给出的action是action却是约束范围的边界值?并且...

1年以上 前 | 0 件の回答 | 0

0

回答

質問


TD3算法训练时动作总是输出边界值
我在使用TD3算法训练完成后,无论训练过程中奖励曲线是否收敛,动作总是输出边界值或者输出完全不正确。我的state的值在0-20000,动作边界在0-15000.是哪里出了问题,是自定义环境创建的不正确还是哪里?需要对输入输出进行归一化吗

2年弱 前 | 1 件の回答 | 0

1

回答