Tokenizza un insieme di dati testuale
Stai lavorando a una ricerca di mercato per un sito di viaggi e vuoi usare un insieme di dati esistente per fare fine-tuning di un modello che ti aiuti a classificare le recensioni degli hotel. Decidi di usare la libreria datasets.
La classe AutoTokenizer è già stata importata da transformers e load_dataset() è già stato importato da datasets.
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Aggiungi il padding al tokenizer per elaborare il testo in batch di dimensioni uguali.
- Tokenizza i dati testuali usando il tokenizer GPT pre-addestrato e la funzione definita.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)