LoslegenKostenlos loslegen

Den Präferenzdatensatz vorbereiten

In dieser Übung arbeitest du mit einem Datensatz, der menschliches Feedback in Form von „chosen“- und „rejected“-Ausgaben enthält. Deine Aufgabe ist es, die Prompts aus der Spalte „chosen“ zu extrahieren und die Daten für das Training eines Reward-Modells aufzubereiten.

Die Funktion load_dataset aus datasets wurde bereits importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Lade den Datensatz trl-internal-testing/hh-rlhf-helpful-base-trl-style von Hugging Face.
  • Schreibe eine Funktion, die den Prompt aus dem Feld 'content' extrahiert. Gehe davon aus, dass sich der Prompt am Index 0 des Funktionsinputs befindet.
  • Wende die Funktion zur Promptextraktion auf die Teilmenge 'chosen' des Datensatzes an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the dataset
preference_data = ____

# Define a function to extract the prompt
def extract_prompt(text):
    ____
    return prompt

# Apply the function to the dataset 
preference_data_with_prompt = ____(
    lambda sample: {**sample, 'prompt': ____(sample['chosen'])}
)

sample = preference_data_with_prompt.select(range(1))
print(sample['prompt'])
Code bearbeiten und ausführen