LoslegenKostenlos starten

RL-Interaktionsschleife

Wie du inzwischen weißt, trifft im RL ein Agent Entscheidungen in einer Umgebung, um eine bestimmte Vorstellung von kumulativem Reward zu maximieren. Der Agent muss durch Interaktion herausfinden, welche Aktionen den größten Reward bringen.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning mit Gymnasium in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten