LoslegenKostenlos loslegen

Negative KL-Divergenz abmildern

Du hast das Modell mit RLHF-Techniken feinabgestimmt und festgestellt, dass die Leistung im Vergleich zum Basismodell schlechter geworden ist. Du vermutest, dass dies auf negative KL-Divergenz zurückzuführen ist, und möchtest daher die richtigen Generierungsparameter setzen, um dieses Problem zu vermeiden.

Der tokenizer wurde bereits importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Setze top_k und min_length auf Werte, die helfen, KL-Divergenz zu vermeiden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Code bearbeiten und ausführen