強化学習の適用例
強化学習を用いて学習したディープニューラルネットワークでは、複雑な行動を符号化することができます。そのため、従来の方法では扱いづらかったり、取り組みが困難な用途に対して、別のアプローチが可能となります。たとえば、自動運転では、カメラフレームや Lidar 測定などの複数のセンサーを同時に確認し、運転者に代わってニューラルネットワークがハンドルの切り方を決めることができます。ニューラルネットワークがなければ、この問題は通常、カメラフレームからの特徴抽出、Lidar 測定値のフィルタリング、センサー出力の融合、センサー入力に基づく「運転」の意思決定などに細分化されます。
強化学習の手法は、運用システム向けとしてはまだ評価段階ですが、この技術は次のような産業用途に適していると言えます。
高度な制御: 非線形システムの制御は困難な問題であり、多くの場合、異なる動作点でシステムを線形化して対応します。強化学習は、非線形システムに直接適用できます。
自動運転: 画像アプリケーションにおけるディープニューラルネットワークの成功を考えると、カメラ入力に基づく運転の意思決定は、強化学習が適している分野と言えます。
ロボティクス: 強化学習は、ピックアンドプレース アプリケーションのさまざまなオブジェクトを操作する方法をロボットアームに学習させるといった、ロボットによる把持操作のような用途に役立ちます。他にも、人間とロボット、ロボットとロボットのコラボレーションなど、ロボット工学の用途は多岐にわたります。
スケジューリング: スケジューリング問題は、信号機の制御や、ある目的に対する工場の現場のリソース調整などの多くの場面で見受けられます。強化学習は、これらの組合せ最適化問題を解くための進化的手法の代替案として使用することができます。
キャリブレーション: 電子制御ユニット (ECU) のキャリブレーションなど、パラメーターの手動キャリブレーションを伴う用途は、強化学習に適していると言えます。