DAMODARAN B.K
Followers: 0 Following: 0
統計
MATLAB Answers
2 質問
0 回答
ランク
of 144,475
コントリビューション
0 問題
0 解答
スコア
0
バッジ数
0
コントリビューション
0 投稿
コントリビューション
0 パブリック チャネル
平均評価
コントリビューション
0 ハイライト
平均いいねの数
Feeds
質問
Why RL agent performs same actions repeatedly still it does not constitute optimal policy or better episode Q0.Can anyone explain?
約3年 前 | 0 件の回答 | 0
0
回答質問
Episode Q0 increases exponentially
Can anyone explain why episode Q0 in RL increases exponentially after convergence of reward to a suboptimal policy?
約3年 前 | 1 件の回答 | 0