Pravděpodobnosti přechodů a odměny

Prostředí Cliff Walking má 48 stavů, číslovaných od 0 do 47, řádek po řádku, od levého horního rohu (0) po pravý dolní roh (47). Tvým úkolem je prozkoumat strukturu pravděpodobností přechodů a odměn v tomto prostředí. Všimni si, že všechny odměny jsou záporné – včetně odměny za dosažení cíle. Toto designové rozhodnutí klade důraz na minimalizaci počtu kroků, protože každý krok přináší penalizaci. Efektivita je proto klíčovým faktorem při návrhu účinných algoritmů učení.

Knihovna gymnasium byla importována jako gym a prostředí jako env. Z předchozího cvičení jsou také k dispozici proměnné num_states a num_actions.

Image showing the cliff walking environment.

Vyber stav, který se nachází nad cílovým stavem.
Pro každou akci extrahuj seznam n-tic přechodů pro vybraný stav a ulož ho do proměnné transitions.
Pro každý transition extrahuj hodnoty probability, next_state, reward a příznak done.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny 1/2

cvičení