CommencerCommencer gratuitement

Prétraiter du texte avec AutoTokenizer

Vous développez une application d’agriculture de précision qui permet aux agriculteurs de poser des questions sur les problèmes rencontrés sur le terrain. Vous allez exploiter un jeu de données de questions fréquentes et de réponses aux problèmes rencontrés par les agriculteurs ; les champs de ce jeu de données sont :

  • question : questions agricoles courantes
  • answers : réponses aux questions agricoles

Comme première étape d’un entraînement distribué, vous allez commencer par prétraiter ce jeu de données textuel.

Certaines données ont été préchargées :

  • dataset contient un échantillon de questions et réponses agricoles
  • AutoTokenizer a été importé depuis transformers

Cet exercice fait partie du cours

Entraîner efficacement des modèles d’IA avec PyTorch

Afficher le cours

Instructions

  • Chargez un tokenizer pré-entraîné.
  • Tokenisez example["question"] à l’aide du tokenizer.
  • Appliquez la fonction encode() au dataset.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Modifier et exécuter le code