Mitigando a divergência KL negativa
Você estava ajustando o modelo usando técnicas de RLHF e percebeu que o desempenho do modelo piorou em comparação com o modelo base. Você suspeita que isso se deve à divergência KL negativa, então quer definir os parâmetros de geração corretos para evitar esse problema.
O tokenizer já foi importado.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Defina
top_kemin_lengthcom valores que ajudem a evitar divergência KL.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}