Zustandswerte für eine Policy berechnen
Verwende erneut die deterministische Umgebung MyGridWorld. Jetzt sollst du die Wirksamkeit der Policy bewerten, die du in der vorherigen Übung definiert hast. Das machst du, indem du für jeden Zustand unter dieser Policy die Zustandswertfunktion berechnest.
Die Umgebung wurde als env importiert, zusammen mit den benötigten Variablen (terminal_state, num_states, policy, gamma).
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>Übungsanweisungen
- Vervollständige die Funktion
compute_state_value(), um den Wert für jeden Zustand unter der gegebenen Policy zu berechnen. - Erstelle ein Dictionary
state_values, in dem jeder Schlüssel derstateist und jeder Wert der dazugehörige Zustandswert.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)