Aan de slagGa gratis aan de slag

Tokenizeer een tekstgegevensset

Je werkt aan marktonderzoek voor een reiswebsite en wilt een bestaande gegevensset gebruiken om een model te fine-tunen dat je helpt hotelbeoordelingen te classificeren. Je besluit de datasets-bibliotheek te gebruiken.

De klasse AutoTokenizer is al vooraf geïmporteerd uit transformers, en load_dataset() is vooraf geïmporteerd uit datasets.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Voeg padding toe aan de tokenizer om tekst in batches van gelijke grootte te verwerken.
  • Tokenize de tekstdata met de voorgetrainde GPT-tokenizer en de gedefinieerde functie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Code bewerken en uitvoeren