Tekst tokenizen met AutoTokenizer
AutoTokenizers vereenvoudigen de voorbereiding van tekst door automatisch schoonmaken, normaliseren en tokenizen af te handelen. Zo wordt de tekst precies verwerkt zoals het model verwacht.
In deze oefening onderzoek je hoe AutoTokenizer tekst omzet in tokens die klaar zijn voor Machine Learning-taken.
Deze oefening maakt deel uit van de cursus
Werken met Hugging Face
Oefeninstructies
- Importeer de benodigde class uit
transformers, laad de tokenizer met de juiste methode en split de invoertekst in tokens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")