Aan de slagBegin gratis

Negatieve KL-divergentie beperken

Je was het model aan het fine-tunen met RLHF-technieken en merkte dat de prestaties slechter zijn geworden dan die van het basismodel. Je vermoedt dat dit komt door negatieve KL-divergentie, dus je wilt de juiste generatieparameters instellen om dit te voorkomen.

De tokenizer is al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Bekijk cursus

Oefeninstructies

  • Stel top_k en min_length in op waarden die helpen om KL-divergentie te vermijden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Code bewerken en uitvoeren