Policy Iteration für die optimale Policy anwenden
Policy Iteration ist eine grundlegende Technik im RL, um eine optimale Policy zu finden. Sie besteht aus zwei Schritten: der Policy-Bewertung, bei der du die Zustandswertfunktion für eine gegebene Policy berechnest, und der Policy-Verbesserung, bei der du die Policy auf Basis dieser Werte aktualisierst. Du wendest diese Schritte iterativ an, um im benutzerdefinierten MyGridWorld-Environment zur optimalen Policy zu konvergieren.
Die Funktion render_policy() zeigt die Schritte, die ein Agent gemäß einer Policy ausführt.
Die Funktionen compute_state_value(state, policy) und compute_q_value(state, action, policy) wurden für dich vorab geladen.
Diese Übung ist Teil des Kurses
Reinforcement Learning mit Gymnasium in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V