ComeçarComece de graça

Tokenização de texto com o AutoTokenizer

Os AutoTokenizers simplificam a preparação do texto ao lidar automaticamente com a limpeza, a normalização e a tokenização. Eles garantem que o texto seja processado exatamente como o modelo espera.

Neste exercício, você pode explorar como o AutoTokenizer transforma o texto em tokens prontos para tarefas de machine learning.

Este exercício faz parte do curso

Trabalhando com o Hugging Face

Ver curso

Instruções do exercício

  • Importe a classe necessária de transformers, carregue o tokenizador usando o método correto e divida o texto de entrada em tokens.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary library for tokenization
from transformers import ____

# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")

# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")

# Display the tokenized output
print(f"Tokenized output: {tokens}")
Editar e executar o código