ComenzarEmpieza gratis

Cómo mitigar la divergencia KL negativa

Has estado ajustando el modelo con técnicas de RLHF y has notado que su rendimiento ha empeorado respecto al modelo base. Sospechas que se debe a una divergencia KL negativa, así que quieres fijar los parámetros de generación correctos para evitar este problema.

El tokenizer ya se ha importado.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Define top_k y min_length con valores que ayuden a evitar la divergencia KL.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

generation_kwargs = {
    # Set min length and top k parameters
    ____, 
  	"top_p": 1.0,
  	"do_sample": True,  
  	"pad_token_id": tokenizer.eos_token_id, 
  	"max_new_tokens": 32}
Editar y ejecutar código