1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Vyhodnocení politiky na kluzatém Frozen Lake

V prostředí kluzatého Frozen Lake nestačí politiku pouze odvodit z naučené Q-tabulky – to samo o sobě neřekne, jak dobře skutečně funguje. Abychom mohli správně posoudit kvalitu naučené politiky, je potřeba odehrát více epizod a sledovat průměrnou získanou odměnu. Toto cvičení porovnává účinnost naučené politiky se základní linií, která vznikla sledováním náhodné politiky během tréninku. Tvým úkolem je spustit naučenou politiku přes několik epizod, analyzovat její výkon na základě průměrných odměn a porovnat je s průměrnými odměnami dosaženými při náhodné politice.

Q-tabulka Q, num_states, num_actions a avg_reward_per_random_episode jsou předem načteny. Knihovna NumPy je importována jako np.

Pokyny

100 XP
  • V každé iteraci vyber nejlepší akci na základě naučené Q-tabulky Q.
  • Vypočítej průměrnou odměnu za naučenou epizodu avg_reward_per_learned_episode.