Aan de slagGa gratis aan de slag

Tokenisatie mappen

Je wilt nu meer controle krijgen over de tokenisatie en proberen de gegevens per rij of in batches te tokeniseren. Dit levert ook een DataSet-object op, wat je nodig hebt voor training.

De tokenizer is voor je geladen, samen met de data als train_data en test_data.

Deze oefening maakt deel uit van de cursus

Introductie tot LLM’s in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Code bewerken en uitvoeren