Das Reward-Modell überprüfen
Du gehst zurück zum Finetuning des Modells und stellst fest, dass die Leistung immer noch schlechter ist als beim Basismodell. Dieses Mal möchtest du das Reward-Modell unter die Lupe nehmen und hast dafür einen Datensatz mit Ergebnissen aus dem Modell erstellt, den du analysieren wirst. Welche Prüfungen führst du an den Ausgabedaten durch?
Der Datensatz wurde bereits als reward_model_results importiert.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten