LoslegenKostenlos starten

Das Reward-Modell überprüfen

Du gehst zurück zum Finetuning des Modells und stellst fest, dass die Leistung immer noch schlechter ist als beim Basismodell. Dieses Mal möchtest du das Reward-Modell unter die Lupe nehmen und hast dafür einen Datensatz mit Ergebnissen aus dem Modell erstellt, den du analysieren wirst. Welche Prüfungen führst du an den Ausgabedaten durch?

Der Datensatz wurde bereits als reward_model_results importiert.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten