Main Content

このページの内容は最新ではありません。最新版の英語を参照するには、ここをクリックします。

強化学習

不明な動的環境とのやり取りによる深層ニューラル ネットワーク エージェントの学習

強化学習は目標指向型の計算手法で、エージェントが不明な動的環境とやり取りすることによってタスクの実行を学習します。学習が実行されている間、学習アルゴリズムがエージェントの方策パラメーターを更新します。学習アルゴリズムの目標は、タスク実行中に受け取る長期的な報酬が最大になる最適な方策を見つけることです。

方策は、エージェントのタイプに応じて 1 つ以上の方策関数と価値関数で表されます。深層ニューラル ネットワークを使用して、これらの表現を実装することができます。その後、Reinforcement Learning Toolbox™ ソフトウェアを使用してこれらのネットワークに学習させることができます。

詳細については、深層ニューラル ネットワークを使用した強化学習を参照してください。

トピック