Prétraiter du texte avec AutoTokenizer

Vous développez une application d’agriculture de précision qui permet aux agriculteurs de poser des questions sur les problèmes rencontrés sur le terrain. Vous allez exploiter un jeu de données de questions fréquentes et de réponses aux problèmes rencontrés par les agriculteurs ; les champs de ce jeu de données sont :

question : questions agricoles courantes
answers : réponses aux questions agricoles

Comme première étape d’un entraînement distribué, vous allez commencer par prétraiter ce jeu de données textuel.

Certaines données ont été préchargées :

dataset contient un échantillon de questions et réponses agricoles
AutoTokenizer a été importé depuis transformers

Cet exercice fait partie du cours

<cours>Entraîner efficacement des modèles d’IA avec PyTorch</cours>

Voir le cours

Instructions de l’exercice

Chargez un tokenizer pré-entraîné.
Tokenisez example["question"] à l’aide du tokenizer.
Appliquez la fonction encode() au dataset.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Modifier et exécuter le code