IniziaInizia gratis

Mitigare la divergenza KL negativa

Stavi effettuando il fine-tuning del modello usando tecniche di RLHF e hai notato che le prestazioni sono peggiorate rispetto al modello base. Sospetti che ciò sia dovuto a una divergenza KL negativa, quindi vuoi impostare i parametri di generazione corretti per prevenire questo problema.

Il tokenizer è stato preimportato.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Imposta top_k e min_length a valori che aiutino a evitare la divergenza KL.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Modifica ed esegui il codice