Tokenizzazione del testo con AutoTokenizer
Gli AutoTokenizer semplificano la preparazione del testo gestendo automaticamente pulizia, normalizzazione e tokenizzazione. In questo modo il testo viene elaborato esattamente come si aspetta il modello.
In questo esercizio, esplora come AutoTokenizer trasforma il testo in token pronti per i task di Machine Learning.
Questo esercizio fa parte del corso
Lavorare con Hugging Face
Istruzioni dell'esercizio
- Importa la classe necessaria da
transformers, carica il tokenizer usando il metodo corretto e suddividi il testo di input in token.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")