Erste SchritteKostenlos loslegen

Mapping Tokenisierung

Du möchtest nun testen, ob du mehr Kontrolle über die Tokenisierung hast und die Daten in Zeilen oder Stapeln tokenisieren kannst. Das Ergebnis ist ein DataSet-Objekt, das du für die Ausbildung brauchst.

Die tokenizer wurde für dich zusammen mit den Daten als train_data und test_data geladen.

Diese Übung ist Teil des Kurses

Einführung in LLMs in Python

Kurs anzeigen

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Bearbeiten und Ausführen von Code