1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Příprava na 8bitový trénink

Chtěl/a jsi spustit fine-tuning s RLHF, ale narážel/a jsi na chyby způsobené nedostatkem paměti. Jako řešení jsi zvolil/a přechod na 8bitovou přesnost, která umožňuje efektivnější fine-tuning – a to díky knihovně peft od Hugging Face.

Následující položky jsou již naimportované:

  • AutoModelForCausalLM z transformers
  • prepare_model_for_int8_training z peft
  • AutoModelForCausalLMWithValueHead z trl

Pokyny

100 XP
  • Načti předtrénovaný model a nezapomeň přidat parametr pro 8bitovou přesnost.
  • Pomocí funkce prepare_model_for_int8_training připrav model na fine-tuning založený na LoRA.
  • Načti model s value head pro trénink PPO.