IniziaInizia gratis

Tokenizzazione del testo con AutoTokenizer

Gli AutoTokenizer semplificano la preparazione del testo gestendo automaticamente pulizia, normalizzazione e tokenizzazione. In questo modo il testo viene elaborato esattamente come si aspetta il modello.

In questo esercizio, esplora come AutoTokenizer trasforma il testo in token pronti per i task di Machine Learning.

Questo esercizio fa parte del corso

Lavorare con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe necessaria da transformers, carica il tokenizer usando il metodo corretto e suddividi il testo di input in token.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Modifica ed esegui il codice