CommencerCommencer gratuitement

Préparer le jeu de données de préférences

Dans cet exercice, vous allez travailler avec un jeu de données qui contient des retours humains sous la forme de sorties « chosen » et « rejected ». Votre objectif est d’extraire les invites depuis la colonne « chosen » et de préparer les données pour entraîner un modèle de récompense.

La fonction load_dataset de datasets a été préimportée

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Chargez le jeu de données trl-internal-testing/hh-rlhf-helpful-base-trl-style depuis Hugging Face.
  • Écrivez une fonction qui extrait l’invite depuis le champ 'content', en supposant que l’invite se trouve à l’index 0 de l’entrée de la fonction.
  • Appliquez la fonction qui extrait l’invite au sous-ensemble de jeu de données 'chosen'.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Modifier et exécuter le code