De beloning initialiseren
Je bent in de laatste fase van het uitrollen van een generatief model dat persoonlijke aanbevelingen doet voor een online boekwinkel. Om dit model af te stemmen op aanbevelingen die mensen prefereren, moet je een rewardmodel trainen met verzamelde voorkeursdata. De eerste stap is het initialiseren van het model en de configuratieparameters.
De AutoTokenizer en AutoModelForSequenceClassification zijn vooraf geladen uit transformers. RewardConfig is vooraf geladen uit trl.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Laad het GPT-1-model,
"openai-gpt", voor de sequentieclassificatietaak met Hugging Face'sAutoModelForSequenceClassification. - Initialiseer de beloningsconfiguratie met
"output_dir"als de uitvoermap en zet de maximale tokenlengte op60.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)