Probabilități de tranziție și recompense

Mediul Cliff Walking are 48 de stări, numerotate de la 0 la 47, linie cu linie, din colțul din stânga sus (0) până în colțul din dreapta jos (47). Obiectivul tău este să explorezi structura probabilităților de tranziție și a recompenselor în cadrul acestui mediu. De remarcat că toate recompensele sunt negative în acest mediu, inclusiv recompensa pentru atingerea obiectivului. Această alegere de design pune accentul pe minimizarea numărului de pași, deoarece fiecare pas implică o penalizare – eficiența devine astfel un element esențial în proiectarea algoritmilor de învățare eficienți.

Biblioteca gymnasium a fost importată ca gym, iar mediul ca env. De asemenea, num_states și num_actions din exercițiul anterior au fost importate.

Image showing the cliff walking environment.

Alege starea situată deasupra stării obiectiv.
Pentru fiecare acțiune, extrage lista de tupluri de tranziție corespunzătoare stării alese și stocheaz-o în transitions.
Pentru fiecare transition, extrage probability, next_state, reward și indicatorul done.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/2

exercițiu