素のDQNの学習

Lunar Lander 環境で Barebone DQN アルゴリズムを学習させましょう。これはまだ素のアルゴリズムなので性能は高くありませんが、後で改良していきます。

月面着陸に向けて Lunar Lander を着地させるための最初の一歩だと考えてください！

先ほど定義した q_network インスタンスは利用可能です。

このコースの演習全体を通して、各エピソードの最後にエージェントの成績を表示するための describe_episode() 関数も Python 環境に用意されています。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習