CommencerCommencer gratuitement

Prétraiter le texte avec AutoTokenizer

Vous développez une application d'agriculture de précision pour permettre aux agriculteurs de poser des questions sur les problèmes qu'ils rencontrent dans les champs. Vous exploiterez un ensemble de données contenant des questions courantes et des réponses aux problèmes rencontrés par les agriculteurs ; les champs de cet ensemble de données sont les suivants

  • questionQuestions agricoles communes : questions agricoles communes
  • answersLa Commission européenne : réponses aux questions sur l'agriculture

La première étape de la formation distribuée consiste à prétraiter cet ensemble de données textuelles.

Certaines données ont été préchargées :

  • dataset contient un échantillon de données de questions et réponses sur l'agriculture
  • AutoTokenizer a été importé de transformers

Cet exercice fait partie du cours

Entraînement efficace de modèles d'IA avec PyTorch

Afficher le cours

Instructions

  • Chargez un site pré-entraîné tokenizer.
  • Tokenisez example["question"] à l'aide de l'adresse tokenizer.
  • Appliquez la fonction encode() à la fonction dataset.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Modifier et exécuter le code