Tokenizar texto con AutoTokenizer
Los AutoTokenizers simplifican la preparación del texto al encargarse automáticamente de la limpieza, la normalización y la tokenización. Garantizan que el texto se procese tal y como espera el modelo.
En este ejercicio, explora cómo el AutoTokenizer transforma el texto en tokens listos para las tareas de aprendizaje automático.
Este ejercicio forma parte del curso
Trabajar con Cara Abrazada
Instrucciones de ejercicio
- Importa la clase necesaria de
transformers
, carga el tokenizador utilizando el método correcto, y divide el texto de entrada en tokens.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")