Exercise

Definirea unei politici deterministe

În acest exercițiu, vei lucra cu un mediu personalizat numit MyGridWorld, același pe care l-ai văzut în videoclip. Acest mediu este o lume tip grilă în care agentul trebuie să ajungă la diamant cât mai repede posibil. Sarcina ta este să definești o politică care să ghideze comportamentul agentului, conform figurii de mai jos.

Image showing the policy: states 0, 1, 6, 7 - action right. states 2, 3 - action down. states 4, 5 - action left.

Acțiunile sunt reprezentate astfel: (0 → stânga, 1 → jos, 2 → dreapta, 3 → sus).

Biblioteca gymnasium a fost importată pentru tine ca gym, împreună cu funcția render().

Instructions 1/2

undefined XP

1

2

Creează o instanță env pentru mediu, folosind MyGridWorld ca ID de mediu și 'rgb_array' ca render_mode.
Definește policy conform figurii, sub forma unui dicționar Python.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions 1/2

Exercise