1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

DQN s experience replay

Teď do trénování agenta pomocí Deep Q Network přidáš Experience Replay. Použiješ stejné prostředí Lunar Lander jako při stavbě základního DQN.

Místo toho, aby se síť při každém kroku učila jen z nejnovějšího přechodu, umožňuje buffer Experience Replay agentovi učit se z náhodné dávky nedávných zkušeností. To výrazně zlepšuje jeho schopnost porozumět prostředí.

Třídy QNetwork a ReplayBuffer z předchozích cvičení jsou k dispozici a byly inicializovány takto:

  • q_network = QNetwork(8, 4)
  • replay_buffer = ReplayBuffer(10000)

Funkce describe_episode() je opět k dispozici pro zobrazení metrik na konci každé epizody.

Pokyny 1/2

undefined XP
    1
    2
  • Přidej nejnovější zkušenost do Replay Bufferu.