Prétraiter le texte avec AutoTokenizer
Vous développez une application d'agriculture de précision pour permettre aux agriculteurs de poser des questions sur les problèmes qu'ils rencontrent dans les champs. Vous exploiterez un ensemble de données contenant des questions courantes et des réponses aux problèmes rencontrés par les agriculteurs ; les champs de cet ensemble de données sont les suivants
questionQuestions agricoles communes : questions agricoles communesanswersLa Commission européenne : réponses aux questions sur l'agriculture
La première étape de la formation distribuée consiste à prétraiter cet ensemble de données textuelles.
Certaines données ont été préchargées :
datasetcontient un échantillon de données de questions et réponses sur l'agricultureAutoTokenizera été importé detransformers
Cet exercice fait partie du cours
Entraînement efficace de modèles d'IA avec PyTorch
Instructions
- Chargez un site pré-entraîné
tokenizer. - Tokenisez
example["question"]à l'aide de l'adressetokenizer. - Appliquez la fonction
encode()à la fonctiondataset.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)