Tokenização de texto com o AutoTokenizer
Os AutoTokenizers simplificam a preparação do texto ao lidar automaticamente com a limpeza, a normalização e a tokenização. Eles garantem que o texto seja processado exatamente como o modelo espera.
Neste exercício, você pode explorar como o AutoTokenizer transforma o texto em tokens prontos para tarefas de machine learning.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Instruções do exercício
- Importe a classe necessária de
transformers
, carregue o tokenizador usando o método correto e divida o texto de entrada em tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary library for tokenization
from transformers import ____
# Load the tokenizer
tokenizer = AutoTokenizer.____("distilbert-base-uncased-finetuned-sst-2-english")
# Split input text into tokens
tokens = tokenizer.____("AI: Making robots smarter and humans lazier!")
# Display the tokenized output
print(f"Tokenized output: {tokens}")