LoslegenKostenlos starten

Negative KL-Divergenz abmildern

Du hast das Modell mit RLHF-Techniken feinabgestimmt und festgestellt, dass die Leistung im Vergleich zum Basismodell schlechter geworden ist. Du vermutest, dass dies auf negative KL-Divergenz zurückzuführen ist, und möchtest daher die richtigen Generierungsparameter setzen, um dieses Problem zu vermeiden.

Der tokenizer wurde bereits importiert.

Diese Übung ist Teil des Kurses

<Kurs>Reinforcement Learning aus menschlichem Feedback (RLHF)</Kurs>
Kurs ansehen

Übungsanweisungen

  • Setze top_k und min_length auf Werte, die helfen, KL-Divergenz zu vermeiden.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Code bearbeiten und ausführen