Mapping Tokenisierung
Du möchtest nun testen, ob du mehr Kontrolle über die Tokenisierung hast und die Daten in Zeilen oder Stapeln tokenisieren kannst. Das Ergebnis ist ein DataSet-Objekt, das du für die Ausbildung brauchst.
Die tokenizer
wurde für dich zusammen mit den Daten als train_data
und test_data
geladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____