Reinforcement Learning Toolbox 入門

強化学習を使用した方策の設計と学習

Reinforcement Learning Toolbox™ は、DQN、PPO、SAC、DDPG などの強化学習アルゴリズムを使用して方策の学習を行うためのアプリ、関数、および Simulink^® ブロックを提供します。その方策を使用して、リソース割り当て、ロボティクス、自律システムといった複雑な用途のためのコントローラーや判定アルゴリズムを実装できます。

このツールボックスを使用すると、方策と価値関数を深層ニューラルネットワークやルックアップテーブルを使用して表現し、MATLAB^® または Simulink でモデル化された環境とのやり取りを通じてそれらに学習させることができます。ツールボックスで提供される単一エージェントまたは複数エージェントの強化学習アルゴリズムを評価したり、独自の強化学習アルゴリズムを開発したりできます。ハイパーパラメーター設定の実験や、学習の進行状況の監視、学習済みのエージェントのシミュレーションを、アプリを使って対話的に行うことも、プログラムで行うこともできます。学習のパフォーマンスを向上させるために、シミュレーションを複数の CPU、GPU、コンピュータークラスター、およびクラウドで並列実行できます (Parallel Computing Toolbox™ および MATLAB Parallel Server™ を使用)。

ONNX™ モデル形式を使って、TensorFlow™ Keras や PyTorch などの深層学習フレームワークから既存の方策をインポートできます (Deep Learning Toolbox™ を使用)。最適化された C、C++、および CUDA^® コードを生成して、学習済みの方策をマイクロコントローラーや GPU に展開できます。ツールボックスには、使用を開始するのに役立つ参考例が含まれています。

チュートリアル

MDP 環境での強化学習エージェントの学習

一般的なマルコフ決定過程環境で強化学習エージェントに学習させる。
基本グリッドワールドでの強化学習エージェントの学習

MATLAB でグリッドワールドを解決するために Q 学習エージェントと SARSA エージェントに学習させる。
強化学習デザイナーを使用したエージェントの設計と学習

強化学習デザイナーアプリを使用して、カートポールシステム用の DQN エージェントの設計および学習を行う。
DDPG エージェントを使用したタンク内の水位の制御

Simulink で学習環境としてモデル化されたプラントを使用し、強化学習を使ってコントローラーに学習させる。

強化学習について

強化学習とは

強化学習は目標指向型の計算手法で、コンピューターが不確実な動的環境とやり取りすることによってタスクの実行を学習します。
強化学習のワークフロー

強化学習を問題に適用するために使用する一般的なワークフロー。
制御システム用途での強化学習

強化学習エージェントに学習させてプラントを制御できます。
Reinforcement Learning Environments

Model environment dynamics using a MATLAB object that generates rewards and observations in response to agents actions.

対話形式の学習

強化学習入門
この 4 時間のチュートリアルは無料であり、強化学習を対話形式で紹介します。