Text mit AutoTokenizer vorverarbeiten
Du entwickelst eine Anwendung für die Präzisionslandwirtschaft, mit der Landwirte Fragen zu Problemen auf dem Feld stellen können. Du wirst einen Datensatz mit häufigen Fragen und Antworten auf Probleme, mit denen Landwirte konfrontiert sind, nutzen.
question
: Allgemeine landwirtschaftliche Fragenanswers
: Antworten auf die Fragen zur Landwirtschaft
Der erste Schritt beim verteilten Training ist die Vorverarbeitung dieses Textdatensatzes.
Einige Daten wurden vorgeladen:
dataset
enthält einen Beispieldatensatz mit landwirtschaftlichen Fragen und AntwortenAutoTokenizer
wurde importiert vontransformers
Diese Übung ist Teil des Kurses
Effizientes KI-Modelltraining mit PyTorch
Anleitung zur Übung
- Lade eine vortrainierte
tokenizer
. - Tokenize
example["question"]
mit dertokenizer
. - Wende die Funktion
encode()
auf diedataset
an.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)