Préparer le jeu de données de préférences
Dans cet exercice, vous allez travailler avec un jeu de données qui contient des retours humains sous la forme de sorties « chosen » et « rejected ». Votre objectif est d’extraire les invites depuis la colonne « chosen » et de préparer les données pour entraîner un modèle de récompense.
La fonction load_dataset de datasets a été préimportée
Cet exercice fait partie du cours
Reinforcement Learning from Human Feedback (RLHF)
Instructions
- Chargez le jeu de données
trl-internal-testing/hh-rlhf-helpful-base-trl-styledepuis Hugging Face. - Écrivez une fonction qui extrait l’invite depuis le champ
'content', en supposant que l’invite se trouve à l’index0de l’entrée de la fonction. - Appliquez la fonction qui extrait l’invite au sous-ensemble de jeu de données
'chosen'.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])