ComenzarEmpieza gratis

Preparar el conjunto de datos de preferencias

En este ejercicio, trabajarás con un conjunto de datos que incluye feedback humano en forma de resultados "chosen" y "rejected". Tu tarea es extraer las instrucciones (prompts) de la columna "chosen" y preparar los datos para entrenar un modelo de recompensa.

La función load_dataset de datasets ya ha sido importada.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Carga el conjunto de datos trl-internal-testing/hh-rlhf-helpful-base-trl-style desde Hugging Face.
  • Escribe una función que extraiga el prompt del campo 'content', asumiendo que el prompt se encuentra en el índice 0 de la entrada de la función.
  • Aplica la función que extrae el prompt al subconjunto de datos 'chosen'.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Editar y ejecutar código