LoslegenKostenlos loslegen

Mapping Tokenisierung

Du möchtest nun testen, ob du mehr Kontrolle über die Tokenisierung hast und die Daten in Zeilen oder Stapeln tokenisieren kannst. Das Ergebnis ist ein DataSet-Objekt, das du für die Ausbildung brauchst.

Die tokenizer wurde für dich zusammen mit den Daten als train_data und test_data geladen.

Diese Übung ist Teil des Kurses

Einführung in LLMs in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Code bearbeiten und ausführen