LoslegenKostenlos loslegen

Zustandswerte für eine Policy berechnen

Verwende erneut die deterministische Umgebung MyGridWorld. Jetzt sollst du die Wirksamkeit der Policy bewerten, die du in der vorherigen Übung definiert hast. Das machst du, indem du für jeden Zustand unter dieser Policy die Zustandswertfunktion berechnest.

Die Umgebung wurde als env importiert, zusammen mit den benötigten Variablen (terminal_state, num_states, policy, gamma).

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Anleitung zur Übung

  • Vervollständige die Funktion compute_state_value(), um den Wert für jeden Zustand unter der gegebenen Policy zu berechnen.
  • Erstelle ein Dictionary state_values, in dem jeder Schlüssel der state ist und jeder Wert der dazugehörige Zustandswert.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Code bearbeiten und ausführen