1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Implementace metody Monte Carlo s každou návštěvou

Metoda Monte Carlo s každou návštěvou se liší od varianty s první návštěvou tím, že aktualizuje hodnoty pokaždé, když se dvojice stav–akce objeví, a ne jen při prvním výskytu. Tento přístup umožňuje komplexnější vyhodnocení politiky, protože využívá veškeré dostupné informace z epizod. Na druhou stranu může vnášet větší rozptyl do odhadů hodnot, protože zahrnuje všechny vzorky bez ohledu na to, kdy v epizodě nastávají. Tvým úkolem je dokončit implementaci funkce every_visit_mc(), která odhaduje funkci akčních hodnot Q během num_episodes epizod.

Slovníky returns_sum a returns_count s dvojicemi stav–akce jako klíči jsou již inicializované a připravené, stejně jako funkce generate_episode().

Pokyny

100 XP
  • Vygeneruj epizodu pomocí funkce generate_episode().
  • Aktualizuj výnosy a jejich počty pro každou dvojici stav–akce v rámci epizody.
  • Vypočítej odhadované Q-hodnoty.