1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Przygotowanie do treningu 8-bitowego

Chciałeś rozpocząć dostrajanie RLHF, ale ciągle napotykałeś błędy braku pamięci. Aby temu zaradzić, postanowiłeś przejść na precyzję 8-bitową, która umożliwia wydajniejsze dostrajanie – z wykorzystaniem biblioteki peft od Hugging Face.

Następujące elementy zostały już zaimportowane:

  • AutoModelForCausalLM z transformers
  • prepare_model_for_int8_training z peft
  • AutoModelForCausalLMWithValueHead z trl

Instrukcje

100 XP
  • Wczytaj wstępnie wytrenowany model i pamiętaj o uwzględnieniu parametru precyzji 8-bitowej.
  • Użyj funkcji prepare_model_for_int8_training, aby przygotować model do dostrajania opartego na LoRA.
  • Wczytaj model z głowicą wartości (value head) do treningu PPO.