Negatieve KL-divergentie beperken
Je was het model aan het fine-tunen met RLHF-technieken en merkte dat de prestaties slechter zijn geworden dan die van het basismodel. Je vermoedt dat dit komt door negatieve KL-divergentie, dus je wilt de juiste generatieparameters instellen om dit te voorkomen.
De tokenizer is al geïmporteerd.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Stel
top_kenmin_lengthin op waarden die helpen om KL-divergentie te vermijden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}