LoslegenKostenlos loslegen

Einen Textdatensatz tokenisieren

Du arbeitest an einer Marktforschung für eine Reise-Website und möchtest einen vorhandenen Datensatz nutzen, um ein Modell für die Klassifizierung von Hotelbewertungen feinzujustieren. Dafür entscheidest du dich für die Bibliothek datasets.

Die Klasse AutoTokenizer wurde aus transformers vorab importiert, und load_dataset() wurde aus datasets vorab importiert.

Diese Übung ist Teil des Kurses

Reinforcement Learning aus menschlichem Feedback (RLHF)

Kurs anzeigen

Anleitung zur Übung

  • Füge dem Tokenizer Padding hinzu, um Text in gleich großen Batches zu verarbeiten.
  • Tokenisiere die Textdaten mit dem vortrainierten GPT-Tokenizer und der definierten Funktion.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Code bearbeiten und ausführen