RL-Interaktionsschleife
Wie du inzwischen weißt, trifft im RL ein Agent Entscheidungen in einer Umgebung, um eine bestimmte Vorstellung von kumulativem Reward zu maximieren. Der Agent muss durch Interaktion herausfinden, welche Aktionen den größten Reward bringen.
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten