De voorkeursgegevensset voorbereiden
In deze oefening werk je met een gegevensset die menselijke feedback bevat in de vorm van "chosen" en "rejected" outputs. Jouw taak is om de prompts uit de kolom "chosen" te extraheren en de data voor te bereiden voor het trainen van een rewardmodel.
De functie load_dataset uit datasets is al geïmporteerd
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Laad de gegevensset
trl-internal-testing/hh-rlhf-helpful-base-trl-stylevan Hugging Face. - Schrijf een functie die de prompt uit het veld
'content'haalt, met de aanname dat de prompt op index0staat in de invoer van de functie. - Pas de functie die de prompt extraheert toe op de subset
'chosen'van de gegevensset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])