1. Aprende
  2. /
  3. Cursos
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Ejercicio

Generarea de text cu RLHF

În acest exercițiu, vei lucra cu un model pre-antrenat cu RLHF numit lvwerra/gpt2-imdb-pos-v2. Este o oportunitate de a exersa construirea unui pipeline Hugging Face și de a-l folosi pentru a testa un caz de utilizare al modelelor antrenate cu RLHF: generarea de recenzii de filme.

Obiectele pipeline, AutoModelForCausalLM și AutoTokenizer au fost pre-importate din transformers. tokenizer-ul a fost pre-încărcat.

Instrucciones

100 XP
  • Setează numele modelului la lvwerra/gpt2-imdb-pos-v2, modelul pre-antrenat cu RLHF.
  • Folosește funcția pipeline pentru a crea un pipeline de tip text-generation.
  • Folosește pipeline-ul de generare de text pentru a genera o continuare a recenziei furnizate.