CommencerCommencer gratuitement

Atténuer une divergence KL négative

Vous avez affiné le modèle avec des techniques de RLHF et vous avez constaté que ses performances se sont dégradées par rapport au modèle de base. Vous soupçonnez une divergence KL négative et souhaitez donc définir les bons paramètres de génération pour éviter ce problème.

Le tokenizer a déjà été importé.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Définissez top_k et min_length sur des valeurs qui aident à éviter la divergence KL.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Modifier et exécuter le code