1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Definování deterministické politiky

V tomto cvičení budeš pracovat s vlastním prostředím MyGridWorld, které jsi viděl/a ve videu. Jde o mřížkový svět, kde je cílem agenta dostat se co nejrychleji k diamantu. Tvým úkolem je definovat politiku, která řídí chování agenta podle obrázku níže.

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

Akce jsou reprezentovány takto: (0 → doleva, 1 → dolů, 2 → doprava, 3 → nahoru).

Knihovna gymnasium je pro tebe naimportována jako gym spolu s funkcí render().

Pokyny 1/2

undefined XP
    1
    2
  • Vytvoř instanci env pro prostředí s použitím MyGridWorld jako ID prostředí a 'rgb_array' jako render_mode.
  • Definuj policy podle obrázku jako pythonový slovník.