Negative KL-Divergenz abmildern
Du hast das Modell mit RLHF-Techniken feinabgestimmt und festgestellt, dass die Leistung im Vergleich zum Basismodell schlechter geworden ist. Du vermutest, dass dies auf negative KL-Divergenz zurückzuführen ist, und möchtest daher die richtigen Generierungsparameter setzen, um dieses Problem zu vermeiden.
Der tokenizer wurde bereits importiert.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Setze
top_kundmin_lengthauf Werte, die helfen, KL-Divergenz zu vermeiden.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}