Compararea politicilor

Ți se oferă două funcții de valoare a stărilor (value_function_1 și value_function_2) corespunzătoare a două politici diferite în mediul MyGridWorld. Sarcina ta este să compari aceste funcții de valoare stare cu stare, pentru a determina care politică este mai eficientă.

Variabila num_states îți este disponibilă pentru a o folosi.

Creează o listă one_is_better de valori booleene, în care fiecare element verifică dacă valoarea stării din value_function_1 este mai mare sau egală cu valoarea stării din value_function_2.
Creează o listă two_is_better de valori booleene, în care fiecare element verifică dacă valoarea stării din value_function_2 este mai mare sau egală cu valoarea stării din value_function_1.

exercițiu

Compararea politicilor

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu