1. Learn
  2. /
  3. Courses
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Exercise

Inicializace odměny

Jsi v závěrečné fázi nasazení generativního modelu, který nabízí personalizovaná doporučení pro online knihkupectví. Aby model odpovídal doporučením preferovaným lidmi, potřebuješ natrénovat model odměny pomocí shromážděných dat o preferencích. Prvním krokem je inicializace modelu a konfiguračních parametrů.

AutoTokenizer a AutoModelForSequenceClassification byly předem načteny z transformers. RewardConfig byl předem načten z trl.

Instructions

100 XP
  • Načti model GPT-1, "openai-gpt", pro úlohu klasifikace sekvencí pomocí AutoModelForSequenceClassification z Hugging Face.
  • Inicializuj konfiguraci odměny s "output_dir" jako výstupním adresářem a nastav maximální délku tokenu na 60.