強化学習
強化学習は目標指向型の計算学習手法で、エージェントが不明な動的環境とやり取りすることによってタスクの実行を学習します。学習が実行されている間、学習アルゴリズムがエージェントの方策パラメーターを更新します。学習アルゴリズムの目標は、タスク実行中に受け取る累積割引長期報酬の期待値が最大になる最適な方策を見つけることです。
この学習手法により、エージェントは人間の介入なしに、また目標を達成するために明示的にプログラムされることなく、タスクの累積報酬を最大化するような一連の決定を下すことができるようになります。Reinforcement Learning Toolbox™ ソフトウェアを使用して、強化学習エージェントを作成して学習させることができます。
詳細については、強化学習とは (Reinforcement Learning Toolbox)を参照してください。
トピック
- 強化学習とは (Reinforcement Learning Toolbox)
強化学習は目標指向型の計算手法で、コンピューターが不確実な動的環境とやり取りすることによってタスクの実行を学習します。
- 強化学習のワークフロー (Reinforcement Learning Toolbox)
強化学習を問題に適用するために使用する一般的なワークフロー。
- Reinforcement Learning Environments (Reinforcement Learning Toolbox)
Model environment dynamics using a MATLAB® object that generates rewards and observations in response to agents actions.
- 制御システム用途での強化学習 (Reinforcement Learning Toolbox)
強化学習エージェントに学習させてプラントを制御できます。
- MDP 環境での強化学習エージェントの学習 (Reinforcement Learning Toolbox)
一般的なマルコフ決定過程環境で強化学習エージェントに学習させる。
- 基本グリッド ワールドでの強化学習エージェントの学習 (Reinforcement Learning Toolbox)
MATLAB でグリッド ワールドを解決するために Q 学習エージェントと SARSA エージェントに学習させる。
- 強化学習デザイナーを使用したエージェントの設計と学習 (Reinforcement Learning Toolbox)
強化学習デザイナー アプリを使用して、カートポール システム用の DQN エージェントの設計および学習を行う。
- ディープ ネットワーク デザイナーを使用した DQN エージェントの作成およびイメージ観測値を使用した学習 (Reinforcement Learning Toolbox)
Deep Learning Toolbox™ のディープ ネットワーク デザイナー アプリを使用して、強化学習エージェントを作成する。
- 振子の振り上げと平衡化のための、イメージ観測を使用した DDPG エージェントの学習 (Reinforcement Learning Toolbox)
イメージベースの観測信号を使用して DDPG エージェントに学習させる。
- DDPG エージェントを使用したタンク内の水位の制御 (Reinforcement Learning Toolbox)
Simulink® で学習環境としてモデル化されたプラントを使用し、強化学習を使ってコントローラーに学習させる。