RL-Interaktionsschleife
Wie du inzwischen weißt, trifft im RL ein Agent Entscheidungen in einer Umgebung, um eine bestimmte Vorstellung von kumulativem Reward zu maximieren. Der Agent muss durch Interaktion herausfinden, welche Aktionen den größten Reward bringen.
Diese Übung ist Teil des Kurses
Reinforcement Learning mit Gymnasium in Python
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten