Text mit AutoTokenizer vorverarbeiten
Du baust eine Anwendung für Präzisionslandwirtschaft, mit der Landwirt:innen Fragen zu Problemen auf dem Feld stellen können. Du nutzt einen Datensatz mit häufigen Fragen und Antworten zu typischen Herausforderungen; die Felder in diesem Datensatz sind
question: häufige landwirtschaftliche Fragenanswers: Antworten auf die landwirtschaftlichen Fragen
Als erster Schritt im verteilten Training beginnst du mit der Vorverarbeitung dieses Textdatensatzes.
Einige Daten wurden bereits geladen:
datasetenthält einen Beispieldatensatz mit landwirtschaftlichen Fragen und AntwortenAutoTokenizerwurde austransformersimportiert
Diese Übung ist Teil des Kurses
Effizientes KI-Modelltraining mit PyTorch
Anleitung zur Übung
- Lade einen vortrainierten
tokenizer. - Tokenisiere
example["question"]mit demtokenizer. - Wende die Funktion
encode()auf dendatasetan.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)