Q-Werte berechnen
Dein Ziel ist es, die Aktionswerte – auch Q-Werte genannt – für jedes Zustands-Aktions-Paar in der benutzerdefinierten Umgebung MyGridWorld zu berechnen, wenn du die unten gezeigte Policy befolgst. In RL sind Q-Werte zentral, weil sie den erwarteten Nutzen darstellen, wenn in einem gegebenen Zustand eine bestimmte Aktion ausgeführt wird und anschließend der Policy gefolgt wird.

Die Umgebung wurde als env importiert, zusammen mit der Funktion compute_state_value() sowie den benötigten Variablen (terminal_state, num_states, num_actions, policy, gamma).
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>Übungsanweisungen
- Vervollständige die Funktion
compute_q_value(), um den Aktionswert für einen gegebenenstateund eineactionzu berechnen. - Erstelle ein Dictionary
Q, in dem jeder Schlüssel ein Zustands-Aktions-Paar darstellt und der zugehörige Wert der Q-Wert für dieses Paar ist.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)