LoslegenKostenlos loslegen

Q-Werte berechnen

Dein Ziel ist es, die Aktionswerte – auch Q-Werte genannt – für jedes Zustands-Aktions-Paar in der benutzerdefinierten Umgebung MyGridWorld zu berechnen, wenn du die unten gezeigte Policy befolgst. In RL sind Q-Werte zentral, weil sie den erwarteten Nutzen darstellen, wenn in einem gegebenen Zustand eine bestimmte Aktion ausgeführt wird und anschließend der Policy gefolgt wird.

exercise_policy.png

Die Umgebung wurde als env importiert, zusammen mit der Funktion compute_state_value() sowie den benötigten Variablen (terminal_state, num_states, num_actions, policy, gamma).

Diese Übung ist Teil des Kurses

Reinforcement Learning mit Gymnasium in Python

Kurs anzeigen

Anleitung zur Übung

  • Vervollständige die Funktion compute_q_value(), um den Aktionswert für einen gegebenen state und eine action zu berechnen.
  • Erstelle ein Dictionary Q, in dem jeder Schlüssel ein Zustands-Aktions-Paar darstellt und der zugehörige Wert der Q-Wert für dieses Paar ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Code bearbeiten und ausführen