ComeçarComece de graça

Tokenização de texto

Você deseja aproveitar um modelo pré-treinado da Hugging Face e ajustá-lo com os dados da equipe de suporte da sua empresa para ajudar a classificar as interações de acordo com o risco de rotatividade. Isso ajudará a equipe a priorizar o que deve ser abordado primeiro e como fazê-lo, tornando-a mais proativa.

Prepare os dados de treinamento e teste para o ajuste fino, tokenizando o texto.

Os dados AutoTokenizer e AutoModelForSequenceClassification foram carregados para você.

Este exercício faz parte do curso

Introdução aos LLMs em Python

Ver curso

Instruções do exercício

  • Carregue o modelo pré-treinado e o tokenizador em preparação para o ajuste fino.
  • Tokenize tanto o train_data["interaction"] quanto o test_data["interaction"], permitindo o preenchimento e o truncamento da sequência.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Editar e executar o código