Inizia subitoInizia gratis

Applicare la policy iteration per una politica ottimale

La policy iteration è una tecnica fondamentale nel RL per trovare una politica ottimale. Prevede due passaggi principali: la valutazione della politica, in cui calcoli la funzione di valore di stato per una data politica, e il miglioramento della politica, in cui aggiorni la politica in base a questi valori. Applicherai questi passaggi in modo iterativo per convergere verso la politica ottimale nell'ambiente personalizzato MyGridWorld.

La funzione render_policy() verrà utilizzata per mostrare i passi compiuti da un agente secondo una politica.

Le funzioni compute_state_value(state, policy) e compute_q_value(state, action, policy) sono già state caricate per te.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Modifica ed esegui il codice