exercițiu

Łagodzenie negatywnej dywergencji KL

Podczas dostrajania modelu technikami RLHF zauważono, że jego wydajność pogorszyła się w porównaniu z modelem bazowym. Podejrzewasz, że przyczyną jest negatywna dywergencja KL, dlatego chcesz ustawić odpowiednie parametry generowania, aby zapobiec temu problemowi.

tokenizer został wcześniej zaimportowany.

Instrucțiuni

100 XP

Ustaw top_k i min_length na wartości, które pomagają uniknąć dywergencji KL.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu