Tokenizeer een tekstgegevensset
Je werkt aan marktonderzoek voor een reiswebsite en wilt een bestaande gegevensset gebruiken om een model te fine-tunen dat je helpt hotelbeoordelingen te classificeren. Je besluit de datasets-bibliotheek te gebruiken.
De klasse AutoTokenizer is al vooraf geïmporteerd uit transformers, en load_dataset() is vooraf geïmporteerd uit datasets.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Voeg padding toe aan de tokenizer om tekst in batches van gelijke grootte te verwerken.
- Tokenize de tekstdata met de voorgetrainde GPT-tokenizer en de gedefinieerde functie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)