CommencerCommencer gratuitement

Tokeniser un jeu de données textuel

Vous travaillez sur une étude de marché pour un site de voyage et souhaitez utiliser un jeu de données existant pour affiner un modèle qui vous aidera à classifier des avis d’hôtels. Vous décidez d’utiliser la bibliothèque datasets.

La classe AutoTokenizer a été préimportée depuis transformers, et load_dataset() a été préimportée depuis datasets.

Cet exercice fait partie du cours

Reinforcement Learning from Human Feedback (RLHF)

Afficher le cours

Instructions

  • Ajoutez du remplissage (padding) au tokenizer pour traiter le texte en lots de taille identique.
  • Tokenisez les données textuelles à l’aide du tokenizer GPT préentraîné et de la fonction définie.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Modifier et exécuter le code