LoslegenKostenlos loslegen

Tokenisierung abbilden

Du möchtest jetzt ausprobieren, ob du die Tokenisierung besser steuern und die Daten zeilenweise oder in Batches tokenisieren kannst. Dadurch bekommst du auch ein Ergebnis als DataSet-Objekt, das du für das Training brauchst.

Die Datei tokenizer wurde für dich zusammen mit den Daten als train_data und test_data hochgeladen.

Diese Übung ist Teil des Kurses

Einführung in LLMs mit Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Code bearbeiten und ausführen