Cómo mitigar la divergencia KL negativa
Has estado ajustando el modelo con técnicas de RLHF y has notado que su rendimiento ha empeorado respecto al modelo base. Sospechas que se debe a una divergencia KL negativa, así que quieres fijar los parámetros de generación correctos para evitar este problema.
El tokenizer ya se ha importado.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Define
top_kymin_lengthcon valores que ayuden a evitar la divergencia KL.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
generation_kwargs = {
# Set min length and top k parameters
____,
"top_p": 1.0,
"do_sample": True,
"pad_token_id": tokenizer.eos_token_id,
"max_new_tokens": 32}