1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Inicjalizacja nagrody

Jesteś na ostatnim etapie wdrażania modelu generatywnego, który ma oferować spersonalizowane rekomendacje dla internetowej księgarni. Aby dopasować ten model do rekomendacji preferowanych przez ludzi, musisz wytrenować model nagrody na zebranych danych preferencji. Pierwszym krokiem jest zainicjalizowanie modelu i parametrów konfiguracyjnych.

AutoTokenizer i AutoModelForSequenceClassification zostały wstępnie załadowane z transformers. RewardConfig zostało wstępnie załadowane z trl.

Instrukcje

100 XP
  • Załaduj model GPT-1, "openai-gpt", do zadania klasyfikacji sekwencji, korzystając z AutoModelForSequenceClassification z Hugging Face.
  • Zainicjalizuj konfigurację nagrody, używając "output_dir" jako katalogu wyjściowego, i ustaw maksymalną długość tokenu na 60.