1. Learn
  2. /
  3. Cursuri
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

exercițiu

Łagodzenie negatywnej dywergencji KL

Podczas dostrajania modelu technikami RLHF zauważono, że jego wydajność pogorszyła się w porównaniu z modelem bazowym. Podejrzewasz, że przyczyną jest negatywna dywergencja KL, dlatego chcesz ustawić odpowiednie parametry generowania, aby zapobiec temu problemowi.

tokenizer został wcześniej zaimportowany.

Instrucțiuni

100 XP
  • Ustaw top_k i min_length na wartości, które pomagają uniknąć dywergencji KL.