1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Trénink s LoRA

Chtěl/a sis začít s RLHF fine-tuningem, ale narážel/a jsi na chyby způsobené nedostatkem paměti. Přepnutí na načítání modelu v 8bitové přesnosti situaci nevyřešilo. Proto jsi se rozhodl/a udělat další krok a použít LoRA pro efektivnější fine-tuning.

Následující položky jsou už předem naimportované:

  • Model načtený v 8bitové přesnosti jako pretrained_model_8bit
  • LoraConfig a get_peft_model z peft
  • AutoModelForCausalLMWithValueHead z trl

Pokyny

100 XP
  • Nastav LoRA dropout na 0.1 a typ biasu pouze na LoRA.
  • Přidej konfiguraci LoRA do modelu.
  • Nastav model s value head pro PPO trénink.