Prétraiter le texte avec AutoTokenizer
Vous développez une application d'agriculture de précision pour permettre aux agriculteurs de poser des questions sur les problèmes qu'ils rencontrent dans les champs. Vous exploiterez un ensemble de données contenant des questions courantes et des réponses aux problèmes rencontrés par les agriculteurs ; les champs de cet ensemble de données sont les suivants
question
Questions agricoles communes : questions agricoles communesanswers
La Commission européenne : réponses aux questions sur l'agriculture
La première étape de la formation distribuée consiste à prétraiter cet ensemble de données textuelles.
Certaines données ont été préchargées :
dataset
contient un échantillon de données de questions et réponses sur l'agricultureAutoTokenizer
a été importé detransformers
Cet exercice fait partie du cours
Entraînement efficace de modèles d'IA avec PyTorch
Instructions
- Chargez un site pré-entraîné
tokenizer
. - Tokenisez
example["question"]
à l'aide de l'adressetokenizer
. - Appliquez la fonction
encode()
à la fonctiondataset
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)