1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Generování textu s RLHF

V tomto cvičení budeš pracovat s modelem předtrénovaným pomocí RLHF s názvem lvwerra/gpt2-imdb-pos-v2. Je to příležitost procvičit si sestavení Hugging Face pipeline a otestovat jeden z případů použití modelů trénovaných s RLHF: generování filmových recenzí.

Objekty pipeline, AutoModelForCausalLM, and AutoTokenizer byly předem importovány z transformers. tokenizer byl předem načten.

Pokyny

100 XP
  • Nastav název modelu na lvwerra/gpt2-imdb-pos-v2 – model předtrénovaný s RLHF.
  • Pomocí funkce pipeline vytvoř pipeline pro text-generation.
  • Pomocí této pipeline vygeneruj pokračování zadané recenze.