Training, Tuning & Feedback
Du arbeitest an einem Projekt, bei dem du ein Modell mit der Technik „Reinforcement Learning through Human Feedback“ (RLHF) entwickelst, um dessen Leistung für den Kundensupport zu verbessern.
Welche dieser Optionen beschreibt den RLHF-Prozess am besten?
Diese Übung ist Teil des Kurses
<Kurs>Konzepte großer Sprachmodelle (LLMs)</Kurs>Interaktive praktische Übung
Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis
Übung starten