Tokenizando texto com o AutoTokenizer
Os AutoTokenizers simplificam a preparação do texto, cuidando automaticamente da limpeza, normalização e tokenização. Eles garantem que o texto seja processado exatamente como o modelo espera.
Neste exercício, vamos ver como o AutoTokenizer transforma texto em tokens prontos para tarefas de machine learning.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Instruções do exercício
- Importa a classe necessária de
transformers
, carrega o tokenizador usando o método certo e divide o texto de entrada em tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")