LoslegenKostenlos starten

Policy Iteration für die optimale Policy anwenden

Policy Iteration ist eine grundlegende Technik im RL, um eine optimale Policy zu finden. Sie besteht aus zwei Schritten: der Policy-Bewertung, bei der du die Zustandswertfunktion für eine gegebene Policy berechnest, und der Policy-Verbesserung, bei der du die Policy auf Basis dieser Werte aktualisierst. Du wendest diese Schritte iterativ an, um im benutzerdefinierten MyGridWorld-Environment zur optimalen Policy zu konvergieren.

Die Funktion render_policy() zeigt die Schritte, die ein Agent gemäß einer Policy ausführt.

Die Funktionen compute_state_value(state, policy) und compute_q_value(state, action, policy) wurden für dich vorab geladen.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Code bearbeiten und ausführen