ComeçarComece de graça

Tokenizar um conjunto de dados de texto

Você está trabalhando em uma pesquisa de mercado para um site de viagens e quer usar um conjunto de dados existente para ajustar fino um modelo que ajude a classificar avaliações de hotéis. Você decide usar a biblioteca datasets.

A classe AutoTokenizer já foi importada de transformers, e load_dataset() já foi importada de datasets.

Este exercício faz parte do curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instruções do exercício

  • Adicione padding ao tokenizador para processar texto em lotes de tamanho igual.
  • Tokenize os dados de texto usando o tokenizador GPT pré-treinado e a função definida.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Editar e executar o código