1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Vylepšení politiky

V předchozím cvičení jsi vypočítal/a Q-hodnoty pro každou dvojici stav–akce v prostředí MyGridWorld. Teď tyto Q-hodnoty využiješ k vylepšení stávající politiky. Vylepšení politiky je klíčovým krokem v reinforcement learningu – jde o to zvolit v každém stavu akci, která maximalizuje očekávanou užitnost (Q-hodnotu). Po vylepšení politiky zobrazíš nové pohyby agenta podle této nové politiky.

Prostředí je dostupné jako env, Q-hodnoty jako Q a k dispozici je také funkce render().

Pokyny

100 XP
  • Pro každý stav najdi nejlepší akci na základě Q-hodnot.
  • Vyber správnou action podle improved_policy.
  • Proveď vybranou action a sleduj výsledek.