Den Präferenzdatensatz vorbereiten
In dieser Übung arbeitest du mit einem Datensatz, der menschliches Feedback in Form von „chosen“- und „rejected“-Ausgaben enthält. Deine Aufgabe ist es, die Prompts aus der Spalte „chosen“ zu extrahieren und die Daten für das Training eines Reward-Modells aufzubereiten.
Die Funktion load_dataset aus datasets wurde bereits importiert.
Diese Übung ist Teil des Kurses
Reinforcement Learning aus menschlichem Feedback (RLHF)
Anleitung zur Übung
- Lade den Datensatz
trl-internal-testing/hh-rlhf-helpful-base-trl-stylevon Hugging Face. - Schreibe eine Funktion, die den Prompt aus dem Feld
'content'extrahiert. Gehe davon aus, dass sich der Prompt am Index0des Funktionsinputs befindet. - Wende die Funktion zur Promptextraktion auf die Teilmenge
'chosen'des Datensatzes an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the dataset
preference_data = ____
# Define a function to extract the prompt
def extract_prompt(text):
____
return prompt
# Apply the function to the dataset
preference_data_with_prompt = ____(
lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)
sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])