Tokenização de texto
Você deseja aproveitar um modelo pré-treinado da Hugging Face e ajustá-lo com os dados da equipe de suporte da sua empresa para ajudar a classificar as interações de acordo com o risco de rotatividade. Isso ajudará a equipe a priorizar o que deve ser abordado primeiro e como fazê-lo, tornando-a mais proativa.
Prepare os dados de treinamento e teste para o ajuste fino, tokenizando o texto.
Os dados AutoTokenizer e AutoModelForSequenceClassification foram carregados para você.
Este exercício faz parte do curso
Introdução aos LLMs em Python
Instruções do exercício
- Carregue o modelo pré-treinado e o tokenizador em preparação para o ajuste fino.
- Tokenize tanto o
train_data["interaction"]quanto otest_data["interaction"], permitindo o preenchimento e o truncamento da sequência.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)