ComenzarEmpieza gratis

Tokenización de texto con AutoTokenizer

Los autotokenizadores simplifican la preparación del texto al encargarse automáticamente de la limpieza, la normalización y la tokenización. Garantizan que el texto se procese tal y como espera el modelo.

En este ejercicio, explora cómo AutoTokenizer transforma el texto en tokens listos para tareas de machine learning.

Este ejercicio forma parte del curso

Trabajar con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Importa la clase necesaria desde transformers, carga el tokenizador utilizando el método correcto y divide el texto de entrada en tokens.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Editar y ejecutar código