LoslegenKostenlos starten

Tokenisierung abbilden

Du möchtest jetzt ausprobieren, ob du die Tokenisierung besser steuern und die Daten zeilenweise oder in Batches tokenisieren kannst. Dadurch bekommst du auch ein Ergebnis als DataSet-Objekt, das du für das Training brauchst.

Die Datei tokenizer wurde für dich zusammen mit den Daten als train_data und test_data hochgeladen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in LLMs mit Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Code bearbeiten und ausführen