Aan de slagGa gratis aan de slag

Policy-iteratie toepassen voor een optimale policy

Policy-iteratie is een basistechniek in RL om een optimale policy te vinden. Het bestaat uit twee hoofdstappen: policy-evaluatie, waarbij je de toestandswaardefunctie berekent voor een gegeven policy, en policy-verbetering, waarbij je de policy bijwerkt op basis van deze waarden. Je past deze stappen herhaaldelijk toe totdat je convergeert naar de optimale policy in de aangepaste MyGridWorld-omgeving.

De functie render_policy() wordt gebruikt om de stappen te tonen die een agent neemt volgens een policy.

De functies compute_state_value(state, policy) en compute_q_value(state, action, policy) zijn alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Code bewerken en uitvoeren