cvičení

Vylepšení politiky

V předchozím cvičení jsi vypočítal/a Q-hodnoty pro každou dvojici stav–akce v prostředí MyGridWorld. Teď tyto Q-hodnoty využiješ k vylepšení stávající politiky. Vylepšení politiky je klíčovým krokem v reinforcement learningu – jde o to zvolit v každém stavu akci, která maximalizuje očekávanou užitnost (Q-hodnotu). Po vylepšení politiky zobrazíš nové pohyby agenta podle této nové politiky.

Prostředí je dostupné jako env, Q-hodnoty jako Q a k dispozici je také funkce render().

Pokyny

100 XP

Pro každý stav najdi nejlepší akci na základě Q-hodnot.
Vyber správnou action podle improved_policy.
Proveď vybranou action a sleduj výsledek.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení