Training, Tuning & Feedback
Du arbeitest an einem Projekt, bei dem du ein Modell mit der Technik „Reinforcement Learning through Human Feedback“ (RLHF) entwickelst, um dessen Leistung für den Kundensupport zu verbessern.
Welche dieser Optionen beschreibt den RLHF-Prozess am besten?
Diese Übung ist Teil des Kurses
Konzepte großer Sprachmodelle (LLMs)
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
