ComeçarComece de graça

Tokenizando texto com o AutoTokenizer

Os AutoTokenizers simplificam a preparação do texto, cuidando automaticamente da limpeza, normalização e tokenização. Eles garantem que o texto seja processado exatamente como o modelo espera.

Neste exercício, vamos ver como o AutoTokenizer transforma texto em tokens prontos para tarefas de machine learning.

Este exercício faz parte do curso

Trabalhando com o Hugging Face

Ver curso

Instruções do exercício

  • Importa a classe necessária de transformers, carrega o tokenizador usando o método certo e divide o texto de entrada em tokens.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Editar e executar o código