Tekstgeneratie met RLHF
In deze oefening werk je met een model dat vooraf is getraind met RLHF: lvwerra/gpt2-imdb-pos-v2. Dit is een mooie gelegenheid om te herhalen hoe je een Hugging Face-pipeline opzet en die te gebruiken voor een veelvoorkomend RLHF-usecase: het genereren van filmrecensies.
De objecten pipeline, AutoModelForCausalLM, and AutoTokenizer zijn al vooraf geïmporteerd uit transformers. De tokenizer is alvast ingeladen
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Stel de modelnaam in op
lvwerra/gpt2-imdb-pos-v2, het met RLHF voorgetrainde model. - Gebruik de functie
pipelineom eentext-generation-pipeline te maken. - Gebruik de tekstgeneratie-pipeline om een vervolg op de gegeven review te genereren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set the model name
model_name = ____
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Create a text generation pipeline
text_generator = pipeline(____, model=model, tokenizer=tokenizer)
review_prompt = "Surprisingly, the film"
# Generate a continuation of the review
generated_text = text_generator(____, max_length=10)
print(f"Generated Review Continuation: {generated_text[0]['generated_text']}")