ćwiczenie

Ulepszanie polityki

W poprzednim ćwiczeniu wyznaczyłeś wartości Q dla każdej pary stan–akcja w środowisku MyGridWorld. Teraz użyjesz tych wartości, aby ulepszyć istniejącą politykę. Ulepszanie polityki to kluczowy krok w uczeniu ze wzmocnieniem – polega na wyborze akcji maksymalizujących oczekiwaną użyteczność (wartość Q) w każdym stanie. Po ulepszeniu polityki zobaczysz nowe ruchy agenta zgodne z tą polityką.

Środowisko zostało zaimportowane jako env, wartości Q jako Q, a do dyspozycji masz też funkcję render().

Instrukcje

100 XP

Znajdź najlepszą akcję dla każdego stanu na podstawie wartości Q.
Wybierz odpowiednią action na podstawie improved_policy.
Wykonaj wybraną action, aby zaobserwować jej wynik.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie