LoslegenKostenlos loslegen

Text mit AutoTokenizer vorverarbeiten

Du baust eine Anwendung für Präzisionslandwirtschaft, mit der Landwirt:innen Fragen zu Problemen auf dem Feld stellen können. Du nutzt einen Datensatz mit häufigen Fragen und Antworten zu typischen Herausforderungen; die Felder in diesem Datensatz sind

  • question: häufige landwirtschaftliche Fragen
  • answers: Antworten auf die landwirtschaftlichen Fragen

Als erster Schritt im verteilten Training beginnst du mit der Vorverarbeitung dieses Textdatensatzes.

Einige Daten wurden bereits geladen:

  • dataset enthält einen Beispieldatensatz mit landwirtschaftlichen Fragen und Antworten
  • AutoTokenizer wurde aus transformers importiert

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Lade einen vortrainierten tokenizer.
  • Tokenisiere example["question"] mit dem tokenizer.
  • Wende die Funktion encode() auf den dataset an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Code bearbeiten und ausführen