cvičení

Trénink s LoRA

Chtěl/a sis začít s RLHF fine-tuningem, ale narážel/a jsi na chyby způsobené nedostatkem paměti. Přepnutí na načítání modelu v 8bitové přesnosti situaci nevyřešilo. Proto jsi se rozhodl/a udělat další krok a použít LoRA pro efektivnější fine-tuning.

Následující položky jsou už předem naimportované:

Model načtený v 8bitové přesnosti jako pretrained_model_8bit
LoraConfig a get_peft_model z peft
AutoModelForCausalLMWithValueHead z trl

Pokyny

100 XP

Nastav LoRA dropout na 0.1 a typ biasu pouze na LoRA.
Přidej konfiguraci LoRA do modelu.
Nastav model s value head pro PPO trénink.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení