Aan de slagBegin gratis

De voorkeursgegevensset voorbereiden

In deze oefening werk je met een gegevensset die menselijke feedback bevat in de vorm van "chosen" en "rejected" outputs. Jouw taak is om de prompts uit de kolom "chosen" te extraheren en de data voor te bereiden voor het trainen van een rewardmodel.

De functie load_dataset uit datasets is al geïmporteerd

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Bekijk cursus

Oefeninstructies

  • Laad de gegevensset trl-internal-testing/hh-rlhf-helpful-base-trl-style van Hugging Face.
  • Schrijf een functie die de prompt uit het veld 'content' haalt, met de aanname dat de prompt op index 0 staat in de invoer van de functie.
  • Pas de functie die de prompt extraheert toe op de subset 'chosen' van de gegevensset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Code bewerken en uitvoeren