ComenzarEmpieza gratis

Tokenizar texto con AutoTokenizer

Los AutoTokenizers simplifican la preparación del texto al encargarse automáticamente de la limpieza, la normalización y la tokenización. Garantizan que el texto se procese tal y como espera el modelo.

En este ejercicio, explora cómo el AutoTokenizer transforma el texto en tokens listos para las tareas de aprendizaje automático.

Este ejercicio forma parte del curso

Trabajar con Cara Abrazada

Ver curso

Instrucciones de ejercicio

  • Importa la clase necesaria de transformers, carga el tokenizador utilizando el método correcto, y divide el texto de entrada en tokens.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Editar y ejecutar código