LoslegenKostenlos loslegen

Das Reward-Modell überprüfen

Du gehst zurück zum Finetuning des Modells und stellst fest, dass die Leistung immer noch schlechter ist als beim Basismodell. Dieses Mal möchtest du das Reward-Modell unter die Lupe nehmen und hast dafür einen Datensatz mit Ergebnissen aus dem Modell erstellt, den du analysieren wirst. Welche Prüfungen führst du an den Ausgabedaten durch?

Der Datensatz wurde bereits als reward_model_results importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten