1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Definiowanie deterministycznej polityki

W tym ćwiczeniu będziesz pracować z niestandardowym środowiskiem MyGridWorld – tym samym, które widziałeś w filmie. To środowisko to świat siatki, w którym celem agenta jest jak najszybsze dotarcie do diamentu. Twoim zadaniem jest zdefiniowanie polityki kierującej zachowaniem agenta zgodnie z rysunkiem poniżej.

Image showing the policy:  states 0, 1, 6, 7 - action right.  states 2, 3 - action down.  states 4, 5 - action left.

Akcje są reprezentowane jako: (0 → lewo, 1 → dół, 2 → prawo, 3 → góra).

Biblioteka gymnasium została już zaimportowana jako gym wraz z funkcją render().

Instrukcje 1/2

undefined XP
    1
    2
  • Utwórz instancję env dla środowiska, używając MyGridWorld jako identyfikatora środowiska i 'rgb_array' jako render_mode.
  • Zdefiniuj policy zgodnie z rysunkiem jako słownik Pythona.