1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning cu Gymnasium în Python

Connected

Exercise

Definirea unei politici deterministe

În acest exercițiu, vei lucra cu un mediu personalizat numit MyGridWorld, același pe care l-ai văzut în videoclip. Acest mediu este o lume tip grilă în care agentul trebuie să ajungă la diamant cât mai repede posibil. Sarcina ta este să definești o politică care să ghideze comportamentul agentului, conform figurii de mai jos.

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

Acțiunile sunt reprezentate astfel: (0 → stânga, 1 → jos, 2 → dreapta, 3 → sus).

Biblioteca gymnasium a fost importată pentru tine ca gym, împreună cu funcția render().

Instructions 1/2

undefined XP
    1
    2
  • Creează o instanță env pentru mediu, folosind MyGridWorld ca ID de mediu și 'rgb_array' ca render_mode.
  • Definește policy conform figurii, sub forma unui dicționar Python.