Atténuer une divergence KL négative
Vous avez affiné le modèle avec des techniques de RLHF et vous avez constaté que ses performances se sont dégradées par rapport au modèle de base. Vous soupçonnez une divergence KL négative et souhaitez donc définir les bons paramètres de génération pour éviter ce problème.
Le tokenizer a déjà été importé.
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Définissez
top_ketmin_lengthsur des valeurs qui aident à éviter la divergence KL.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}