Training, Abstimmung & Feedback
Du arbeitest an einem Projekt zur Entwicklung eines Modells, das die Technik des Verstärkungslernens durch menschliches Feedback (RLHF) nutzt, um seine Leistung in einer Kundensupportumgebung zu optimieren.
Welche dieser Optionen beschreibt den RLHF-Prozess am genauesten?
Diese Übung ist Teil des Kurses
Konzepte großer Sprachmodelle (LLMs)
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
