Zustandswerte für eine Policy berechnen
Verwende erneut die deterministische Umgebung MyGridWorld. Jetzt sollst du die Wirksamkeit der Policy bewerten, die du in der vorherigen Übung definiert hast. Das machst du, indem du für jeden Zustand unter dieser Policy die Zustandswertfunktion berechnest.
Die Umgebung wurde als env importiert, zusammen mit den benötigten Variablen (terminal_state, num_states, policy, gamma).
Diese Übung ist Teil des Kurses
Reinforcement Learning mit Gymnasium in Python
Anleitung zur Übung
- Vervollständige die Funktion
compute_state_value(), um den Wert für jeden Zustand unter der gegebenen Policy zu berechnen. - Erstelle ein Dictionary
state_values, in dem jeder Schlüssel derstateist und jeder Wert der dazugehörige Zustandswert.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)