Preparar el conjunto de datos de preferencias
En este ejercicio, trabajarás con un conjunto de datos que incluye feedback humano en forma de resultados "chosen" y "rejected". Tu tarea es extraer las instrucciones (prompts) de la columna "chosen" y preparar los datos para entrenar un modelo de recompensa.
La función load_dataset de datasets ya ha sido importada.
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Carga el conjunto de datos
trl-internal-testing/hh-rlhf-helpful-base-trl-styledesde Hugging Face. - Escribe una función que extraiga el prompt del campo
'content', asumiendo que el prompt se encuentra en el índice0de la entrada de la función. - Aplica la función que extrae el prompt al subconjunto de datos
'chosen'.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])