1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Ulepszanie polityki

W poprzednim ćwiczeniu wyznaczyłeś wartości Q dla każdej pary stan–akcja w środowisku MyGridWorld. Teraz użyjesz tych wartości, aby ulepszyć istniejącą politykę. Ulepszanie polityki to kluczowy krok w uczeniu ze wzmocnieniem – polega na wyborze akcji maksymalizujących oczekiwaną użyteczność (wartość Q) w każdym stanie. Po ulepszeniu polityki zobaczysz nowe ruchy agenta zgodne z tą polityką.

Środowisko zostało zaimportowane jako env, wartości Q jako Q, a do dyspozycji masz też funkcję render().

Instrukcje

100 XP
  • Znajdź najlepszą akcję dla każdego stanu na podstawie wartości Q.
  • Wybierz odpowiednią action na podstawie improved_policy.
  • Wykonaj wybraną action, aby zaobserwować jej wynik.