Tokenización de texto con AutoTokenizer
Los autotokenizadores simplifican la preparación del texto al encargarse automáticamente de la limpieza, la normalización y la tokenización. Garantizan que el texto se procese tal y como espera el modelo.
En este ejercicio, explora cómo AutoTokenizer transforma el texto en tokens listos para tareas de machine learning.
Este ejercicio forma parte del curso
Trabajar con Hugging Face
Instrucciones del ejercicio
- Importa la clase necesaria desde
transformers
, carga el tokenizador utilizando el método correcto y divide el texto de entrada en tokens.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")