Preparando o conjunto de dados de preferências
Neste exercício, você vai trabalhar com um conjunto de dados que contém feedback humano na forma de saídas "chosen" e "rejected". Sua tarefa é extrair os prompts da coluna "chosen" e preparar os dados para treinar um modelo de recompensa.
A função load_dataset de datasets já foi importada
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Carregue o conjunto de dados
trl-internal-testing/hh-rlhf-helpful-base-trl-styledo Hugging Face. - Escreva uma função que extraia o prompt do campo
'content', assumindo que o prompt está no índice0da entrada da função. - Aplique a função que extrai o prompt ao subconjunto de dados
'chosen'.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])