ComeçarComece de graça

Preparando o conjunto de dados de preferências

Neste exercício, você vai trabalhar com um conjunto de dados que contém feedback humano na forma de saídas "chosen" e "rejected". Sua tarefa é extrair os prompts da coluna "chosen" e preparar os dados para treinar um modelo de recompensa.

A função load_dataset de datasets já foi importada

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Carregue o conjunto de dados trl-internal-testing/hh-rlhf-helpful-base-trl-style do Hugging Face.
  • Escreva uma função que extraia o prompt do campo 'content', assumindo que o prompt está no índice 0 da entrada da função.
  • Aplique a função que extrai o prompt ao subconjunto de dados 'chosen'.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Editar e executar o código