Prawdopodobieństwa przejść i nagrody

Środowisko Cliff Walking składa się z 48 stanów, ponumerowanych od 0 do 47, wiersz po wierszu, od lewego górnego rogu (0) do prawego dolnego rogu (47). Twoim zadaniem jest zbadanie struktury prawdopodobieństw przejść i nagród w tym środowisku. Warto zwrócić uwagę, że wszystkie nagrody – w tym nagroda za dotarcie do celu – są ujemne. Taki projekt środowiska kładzie nacisk na minimalizowanie liczby kroków, ponieważ każdy krok wiąże się z karą. Sprawia to, że efektywność działania agenta staje się kluczowym elementem przy projektowaniu skutecznych algorytmów uczenia.

Biblioteka gymnasium została zaimportowana jako gym, a środowisko jako env. Zaimportowano też num_states i num_actions z poprzedniego ćwiczenia.

Image showing the cliff walking environment.

Wybierz stan znajdujący się powyżej stanu celu.
Dla każdej akcji wyodrębnij listę krotek przejść dla wybranego stanu i zapisz ją w zmiennej transitions.
Dla każdego elementu transition wyodrębnij wartości probability, next_state, reward oraz flagę done.

ćwiczenie

Prawdopodobieństwa przejść i nagrody

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie