Prétraiter du texte avec AutoTokenizer
Vous développez une application d’agriculture de précision qui permet aux agriculteurs de poser des questions sur les problèmes rencontrés sur le terrain. Vous allez exploiter un jeu de données de questions fréquentes et de réponses aux problèmes rencontrés par les agriculteurs ; les champs de ce jeu de données sont :
question: questions agricoles courantesanswers: réponses aux questions agricoles
Comme première étape d’un entraînement distribué, vous allez commencer par prétraiter ce jeu de données textuel.
Certaines données ont été préchargées :
datasetcontient un échantillon de questions et réponses agricolesAutoTokenizera été importé depuistransformers
Cet exercice fait partie du cours
Entraîner efficacement des modèles d’IA avec PyTorch
Instructions
- Chargez un
tokenizerpré-entraîné. - Tokenisez
example["question"]à l’aide dutokenizer. - Appliquez la fonction
encode()audataset.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)