Kurven interpretieren
Du bewertest ein Modell anhand von Lernkurven und Leistungsmetriken über mehrere Trainingsepochen. Was zeigt eine relativ stabile KL-Loss-Kurve über dein Modell an?
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten