LoslegenKostenlos loslegen

Text mit AutoTokenizer vorverarbeiten

Du entwickelst eine Anwendung für die Präzisionslandwirtschaft, mit der Landwirte Fragen zu Problemen auf dem Feld stellen können. Du wirst einen Datensatz mit häufigen Fragen und Antworten auf Probleme, mit denen Landwirte konfrontiert sind, nutzen.

  • question: Allgemeine landwirtschaftliche Fragen
  • answers: Antworten auf die Fragen zur Landwirtschaft

Der erste Schritt beim verteilten Training ist die Vorverarbeitung dieses Textdatensatzes.

Einige Daten wurden vorgeladen:

  • dataset enthält einen Beispieldatensatz mit landwirtschaftlichen Fragen und Antworten
  • AutoTokenizer wurde importiert von transformers

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Lade eine vortrainierte tokenizer.
  • Tokenize example["question"] mit der tokenizer.
  • Wende die Funktion encode() auf die dataset an.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Code bearbeiten und ausführen