1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Trenowanie z LoRA

Chciałeś rozpocząć dostrajanie RLHF, ale ciągle napotykałeś błędy braku pamięci. Mimo przełączenia na ładowanie modelu z precyzją 8-bitową, problem nadal występował. Postanowiłeś zrobić kolejny krok i zastosować LoRA, aby usprawnić proces dostrajania.

Następujące elementy zostały już zaimportowane:

  • Model załadowany z precyzją 8-bitową jako pretrained_model_8bit
  • LoraConfig i get_peft_model z peft
  • AutoModelForCausalLMWithValueHead z trl

Instrukcje

100 XP
  • Ustaw dropout LoRA na 0.1, a typ biasu na lora-only.
  • Dodaj konfigurację LoRA do modelu.
  • Skonfiguruj model z głowicą wartości do treningu PPO.