Aan de slagGa gratis aan de slag

Negatieve KL-divergentie beperken

Je was het model aan het fine-tunen met RLHF-technieken en merkte dat de prestaties slechter zijn geworden dan die van het basismodel. Je vermoedt dat dit komt door negatieve KL-divergentie, dus je wilt de juiste generatieparameters instellen om dit te voorkomen.

De tokenizer is al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Stel top_k en min_length in op waarden die helpen om KL-divergentie te vermijden.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Code bewerken en uitvoeren