1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Zmírnění negativní KL divergence

Při fine-tuningu modelu pomocí technik RLHF jsi zjistil/a, že jeho výkon se ve srovnání se základním modelem zhoršil. Příčinou by mohla být negativní KL divergence, proto chceš nastavit správné parametry generování, které tomuto problému zabrání.

tokenizer je již předem naimportován.

Pokyny

100 XP
  • Nastav top_k a min_length na hodnoty, které pomohou předejít KL divergenci.