Inizializzare il reward
Sei nelle fasi finali del deployment di un modello generativo progettato per offrire consigli personalizzati per una libreria online. Per allineare questo modello alle raccomandazioni preferite dagli esseri umani, devi addestrare un reward model usando alcuni dati di preferenza raccolti. Il primo passo è inizializzare il modello e i parametri di configurazione.
AutoTokenizer e AutoModelForSequenceClassification sono stati precaricati da transformers. RewardConfig è stato precaricato da trl.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Carica il modello GPT-1,
"openai-gpt", per il task di classificazione di sequenze usandoAutoModelForSequenceClassificationdi Hugging Face. - Inizializza la configurazione del reward usando
"output_dir"come directory di output e imposta la lunghezza massima dei token a60.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the pre-trained GPT-1 model for text classification
model = ____
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)