1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z informacją zwrotną od człowieka (RLHF)

Connected

ćwiczenie

Generowanie tekstu z użyciem RLHF

W tym ćwiczeniu będziesz pracować z modelem wstępnie wytrenowanym przy użyciu RLHF o nazwie lvwerra/gpt2-imdb-pos-v2. To dobra okazja, żeby przypomnieć sobie, jak zbudować potok Hugging Face, i przetestować jedno z zastosowań modeli trenowanych z RLHF: generowanie recenzji filmowych.

Obiekty pipeline, AutoModelForCausalLM i AutoTokenizer zostały wcześniej zaimportowane z transformers. Obiekt tokenizer jest już wczytany.

Instrukcje

100 XP
  • Ustaw nazwę modelu na lvwerra/gpt2-imdb-pos-v2 – model wstępnie wytrenowany z użyciem RLHF.
  • Użyj funkcji pipeline, aby utworzyć potok text-generation.
  • Użyj potoku do generowania tekstu, aby wygenerować kontynuację podanej recenzji.