ćwiczenie

Trenowanie z LoRA

Chciałeś rozpocząć dostrajanie RLHF, ale ciągle napotykałeś błędy braku pamięci. Mimo przełączenia na ładowanie modelu z precyzją 8-bitową, problem nadal występował. Postanowiłeś zrobić kolejny krok i zastosować LoRA, aby usprawnić proces dostrajania.

Następujące elementy zostały już zaimportowane:

Model załadowany z precyzją 8-bitową jako pretrained_model_8bit
LoraConfig i get_peft_model z peft
AutoModelForCausalLMWithValueHead z trl

Instrukcje

100 XP

Ustaw dropout LoRA na 0.1, a typ biasu na lora-only.
Dodaj konfigurację LoRA do modelu.
Skonfiguruj model z głowicą wartości do treningu PPO.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie