LoslegenKostenlos loslegen

Policy Iteration für die optimale Policy anwenden

Policy Iteration ist eine grundlegende Technik im RL, um eine optimale Policy zu finden. Sie besteht aus zwei Schritten: der Policy-Bewertung, bei der du die Zustandswertfunktion für eine gegebene Policy berechnest, und der Policy-Verbesserung, bei der du die Policy auf Basis dieser Werte aktualisierst. Du wendest diese Schritte iterativ an, um im benutzerdefinierten MyGridWorld-Environment zur optimalen Policy zu konvergieren.

Die Funktion render_policy() zeigt die Schritte, die ein Agent gemäß einer Policy ausführt.

Die Funktionen compute_state_value(state, policy) und compute_q_value(state, action, policy) wurden für dich vorab geladen.

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Code bearbeiten und ausführen