ComeçarComece de graça

Mitigando a divergência KL negativa

Você estava ajustando o modelo usando técnicas de RLHF e percebeu que o desempenho do modelo piorou em comparação com o modelo base. Você suspeita que isso se deve à divergência KL negativa, então quer definir os parâmetros de geração corretos para evitar esse problema.

O tokenizer já foi importado.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Defina top_k e min_length com valores que ajudem a evitar divergência KL.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Editar e executar o código