IniziaInizia gratis

Tokenizza un insieme di dati testuale

Stai lavorando a una ricerca di mercato per un sito di viaggi e vuoi usare un insieme di dati esistente per fare fine-tuning di un modello che ti aiuti a classificare le recensioni degli hotel. Decidi di usare la libreria datasets.

La classe AutoTokenizer è già stata importata da transformers e load_dataset() è già stato importato da datasets.

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Aggiungi il padding al tokenizer per elaborare il testo in batch di dimensioni uguali.
  • Tokenizza i dati testuali usando il tokenizer GPT pre-addestrato e la funzione definita.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Modifica ed esegui il codice