cvičení

Zmírnění negativní KL divergence

Při fine-tuningu modelu pomocí technik RLHF jsi zjistil/a, že jeho výkon se ve srovnání se základním modelem zhoršil. Příčinou by mohla být negativní KL divergence, proto chceš nastavit správné parametry generování, které tomuto problému zabrání.

tokenizer je již předem naimportován.

Pokyny

100 XP

Nastav top_k a min_length na hodnoty, které pomohou předejít KL divergenci.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení