Tokenizar um conjunto de dados de texto
Você está trabalhando em uma pesquisa de mercado para um site de viagens e quer usar um conjunto de dados existente para ajustar fino um modelo que ajude a classificar avaliações de hotéis. Você decide usar a biblioteca datasets.
A classe AutoTokenizer já foi importada de transformers, e load_dataset() já foi importada de datasets.
Este exercício faz parte do curso
Reinforcement Learning from Human Feedback (RLHF)
Instruções do exercício
- Adicione padding ao tokenizador para processar texto em lotes de tamanho igual.
- Tokenize os dados de texto usando o tokenizador GPT pré-treinado e a função definida.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)