Mitigare la divergenza KL negativa
Stavi effettuando il fine-tuning del modello usando tecniche di RLHF e hai notato che le prestazioni sono peggiorate rispetto al modello base. Sospetti che ciò sia dovuto a una divergenza KL negativa, quindi vuoi impostare i parametri di generazione corretti per prevenire questo problema.
Il tokenizer è stato preimportato.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Imposta
top_kemin_lengtha valori che aiutino a evitare la divergenza KL.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}