1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Prawdopodobieństwa przejść i nagrody

Środowisko Cliff Walking składa się z 48 stanów, ponumerowanych od 0 do 47, wiersz po wierszu, od lewego górnego rogu (0) do prawego dolnego rogu (47). Twoim zadaniem jest zbadanie struktury prawdopodobieństw przejść i nagród w tym środowisku. Warto zwrócić uwagę, że wszystkie nagrody – w tym nagroda za dotarcie do celu – są ujemne. Taki projekt środowiska kładzie nacisk na minimalizowanie liczby kroków, ponieważ każdy krok wiąże się z karą. Sprawia to, że efektywność działania agenta staje się kluczowym elementem przy projektowaniu skutecznych algorytmów uczenia.

Biblioteka gymnasium została zaimportowana jako gym, a środowisko jako env. Zaimportowano też num_states i num_actions z poprzedniego ćwiczenia.

Image showing the cliff walking environment.

Instrukcje 1/2

undefined XP
    1
    2
  • Wybierz stan znajdujący się powyżej stanu celu.
  • Dla każdej akcji wyodrębnij listę krotek przejść dla wybranego stanu i zapisz ją w zmiennej transitions.
  • Dla każdego elementu transition wyodrębnij wartości probability, next_state, reward oraz flagę done.