1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Inicializace PPO trenéra

Pracuješ pro společnost zákaznické podpory, která využívá chatbota ke zpracování dotazů zákazníků. Chatbot poskytuje užitečné odpovědi, ale nedávno jsi dostal/a zpětnou vazbu, že jim chybí hloubka. Potřebuješ doladit model, který za chatbotem stojí, a začínáš vytvořením instance PPO trenéra.

dataset_cs je již načtený.

Pokyny

100 XP
  • Inicializuj PPO konfiguraci s názvem modelu "gpt2" a learning rate 1.2e-5.
  • Načti AutoModelForCausalLMWithValueHead – kauzální jazykový model s value head.
  • Vytvoř PPOTrainer() pomocí modelu, konfigurace a tokenizéru, které jsi právě definoval/a, a s předem načteným datasetem.