IniziaInizia gratis

Applicare la policy iteration per una politica ottimale

La policy iteration è una tecnica fondamentale nel RL per trovare una politica ottimale. Prevede due passaggi principali: la valutazione della politica, in cui calcoli la funzione di valore di stato per una data politica, e il miglioramento della politica, in cui aggiorni la politica in base a questi valori. Applicherai questi passaggi in modo iterativo per convergere verso la politica ottimale nell'ambiente personalizzato MyGridWorld.

La funzione render_policy() verrà utilizzata per mostrare i passi compiuti da un agente secondo una politica.

Le funzioni compute_state_value(state, policy) e compute_q_value(state, action, policy) sono già state caricate per te.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Modifica ed esegui il codice