Aan de slagGa gratis aan de slag

Tekst tokenizen met AutoTokenizer

AutoTokenizers vereenvoudigen de voorbereiding van tekst door automatisch schoonmaken, normaliseren en tokenizen af te handelen. Zo wordt de tekst precies verwerkt zoals het model verwacht.

In deze oefening onderzoek je hoe AutoTokenizer tekst omzet in tokens die klaar zijn voor Machine Learning-taken.

Deze oefening maakt deel uit van de cursus

Werken met Hugging Face

Cursus bekijken

Oefeninstructies

  • Importeer de benodigde class uit transformers, laad de tokenizer met de juiste methode en split de invoertekst in tokens.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Code bewerken en uitvoeren