Preparare l'insieme di dati delle preferenze
In questo esercizio lavorerai con un insieme di dati che contiene feedback umano sotto forma di output "chosen" e "rejected". Il tuo compito è estrarre i prompt dalla colonna "chosen" e preparare i dati per addestrare un modello di ricompensa.
La funzione load_dataset da datasets è già stata importata
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Carica l'insieme di dati
trl-internal-testing/hh-rlhf-helpful-base-trl-styleda Hugging Face. - Scrivi una funzione che estragga il prompt dal campo
'content', assumendo che il prompt si trovi all'indice0dell'input della funzione. - Applica la funzione che estrae il prompt al sottoinsieme di dati
'chosen'.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])