1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Generování epizod pro metody Monte Carlo

Metody Monte Carlo potřebují ke zjištění hodnotové funkce generovat epizody. Teď proto napíšeš funkci, která epizody generuje tak, že náhodně vybírá akce, dokud epizoda neskončí. V dalších cvičeních tuto funkci použiješ k aplikaci metod Monte Carlo na vlastní prostředí env, které je pro tebe předem připravené.

Funkce render() je také předem připravená.

Pokyny

100 XP
  • Resetuj prostředí s hodnotou seed 42.
  • Ve smyčce epizody vyber v každé iteraci náhodnou action.
  • Po skončení iterace aktualizuj data episode přidáním trojice (state, action, reward).