Policy-iteratie toepassen voor een optimale policy
Policy-iteratie is een basistechniek in RL om een optimale policy te vinden. Het bestaat uit twee hoofdstappen: policy-evaluatie, waarbij je de toestandswaardefunctie berekent voor een gegeven policy, en policy-verbetering, waarbij je de policy bijwerkt op basis van deze waarden. Je past deze stappen herhaaldelijk toe totdat je convergeert naar de optimale policy in de aangepaste MyGridWorld-omgeving.
De functie render_policy() wordt gebruikt om de stappen te tonen die een agent neemt volgens een policy.
De functies compute_state_value(state, policy) en compute_q_value(state, action, policy) zijn alvast voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning met Gymnasium in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V