Applicare la policy iteration per una politica ottimale
La policy iteration è una tecnica fondamentale nel RL per trovare una politica ottimale. Prevede due passaggi principali: la valutazione della politica, in cui calcoli la funzione di valore di stato per una data politica, e il miglioramento della politica, in cui aggiorni la politica in base a questi valori. Applicherai questi passaggi in modo iterativo per convergere verso la politica ottimale nell'ambiente personalizzato MyGridWorld.
La funzione render_policy() verrà utilizzata per mostrare i passi compiuti da un agente secondo una politica.
Le funzioni compute_state_value(state, policy) e compute_q_value(state, action, policy) sono già state caricate per te.
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V