Aan de slagGa gratis aan de slag

De voorkeursgegevensset voorbereiden

In deze oefening werk je met een gegevensset die menselijke feedback bevat in de vorm van "chosen" en "rejected" outputs. Jouw taak is om de prompts uit de kolom "chosen" te extraheren en de data voor te bereiden voor het trainen van een rewardmodel.

De functie load_dataset uit datasets is al geïmporteerd

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Laad de gegevensset trl-internal-testing/hh-rlhf-helpful-base-trl-style van Hugging Face.
  • Schrijf een functie die de prompt uit het veld 'content' haalt, met de aanname dat de prompt op index 0 staat in de invoer van de functie.
  • Pas de functie die de prompt extraheert toe op de subset 'chosen' van de gegevensset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Code bewerken en uitvoeren