Tokenisierung abbilden
Du möchtest jetzt ausprobieren, ob du die Tokenisierung besser steuern und die Daten zeilenweise oder in Batches tokenisieren kannst. Dadurch bekommst du auch ein Ergebnis als DataSet-Objekt, das du für das Training brauchst.
Die Datei tokenizer wurde für dich zusammen mit den Daten als train_data und test_data hochgeladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs mit Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____