ćwiczenie

Definiowanie deterministycznej polityki

W tym ćwiczeniu będziesz pracować z niestandardowym środowiskiem MyGridWorld – tym samym, które widziałeś w filmie. To środowisko to świat siatki, w którym celem agenta jest jak najszybsze dotarcie do diamentu. Twoim zadaniem jest zdefiniowanie polityki kierującej zachowaniem agenta zgodnie z rysunkiem poniżej.

Image showing the policy: states 0, 1, 6, 7 - action right. states 2, 3 - action down. states 4, 5 - action left.

Akcje są reprezentowane jako: (0 → lewo, 1 → dół, 2 → prawo, 3 → góra).

Biblioteka gymnasium została już zaimportowana jako gym wraz z funkcją render().

Instrukcje 1/2

undefined XP

1

2

Utwórz instancję env dla środowiska, używając MyGridWorld jako identyfikatora środowiska i 'rgb_array' jako render_mode.
Zdefiniuj policy zgodnie z rysunkiem jako słownik Pythona.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie