Negative KL-Divergenz abmildern
Du hast das Modell mit RLHF-Techniken feinabgestimmt und festgestellt, dass die Leistung im Vergleich zum Basismodell schlechter geworden ist. Du vermutest, dass dies auf negative KL-Divergenz zurückzuführen ist, und möchtest daher die richtigen Generierungsparameter setzen, um dieses Problem zu vermeiden.
Der tokenizer wurde bereits importiert.
Diese Übung ist Teil des Kurses
<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>Übungsanweisungen
- Setze
top_kundmin_lengthauf Werte, die helfen, KL-Divergenz zu vermeiden.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}