IniziaInizia gratis

Inizializzare il reward

Sei nelle fasi finali del deployment di un modello generativo progettato per offrire consigli personalizzati per una libreria online. Per allineare questo modello alle raccomandazioni preferite dagli esseri umani, devi addestrare un reward model usando alcuni dati di preferenza raccolti. Il primo passo è inizializzare il modello e i parametri di configurazione.

AutoTokenizer e AutoModelForSequenceClassification sono stati precaricati da transformers. RewardConfig è stato precaricato da trl.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello GPT-1, "openai-gpt", per il task di classificazione di sequenze usando AutoModelForSequenceClassification di Hugging Face.
  • Inizializza la configurazione del reward usando "output_dir" come directory di output e imposta la lunghezza massima dei token a 60.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the pre-trained GPT-1 model for text classification
model = ____

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Initialize the reward configuration and set max_length
config = ____(output_dir=____, max_length=____)
Modifica ed esegui il codice