Textgenerierung mit RLHF
In dieser Übung arbeitest du mit einem mit RLHF vortrainierten Modell namens lvwerra/gpt2-imdb-pos-v2. Diese Übung ist eine gute Gelegenheit, das Erstellen einer Hugging-Face-Pipeline zu wiederholen und sie für einen typischen Anwendungsfall von RLHF-trainierten Modellen zu nutzen: das Generieren von Filmkritiken.
Die Objekte pipeline, AutoModelForCausalLM, and AutoTokenizer wurden bereits aus transformers importiert. Der tokenizer wurde bereits geladen.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Setze den Modellnamen auf
lvwerra/gpt2-imdb-pos-v2, das RLHF-vortrainierte Modell. - Verwende die Funktion
pipeline, um einetext-generation-Pipeline zu erstellen. - Nutze die Textgenerierungs-Pipeline, um eine Fortsetzung der bereitgestellten Rezension zu erzeugen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Set the model name
model_name = ____
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Create a text generation pipeline
text_generator = pipeline(____, model=model, tokenizer=tokenizer)
review_prompt = "Surprisingly, the film"
# Generate a continuation of the review
generated_text = text_generator(____, max_length=10)
print(f"Generated Review Continuation: {generated_text[0]['generated_text']}")