Tokenisatie mappen
Je wilt nu meer controle krijgen over de tokenisatie en proberen de gegevens per rij of in batches te tokeniseren. Dit levert ook een DataSet-object op, wat je nodig hebt voor training.
De tokenizer is voor je geladen, samen met de data als train_data en test_data.
Deze oefening maakt deel uit van de cursus
Introductie tot LLM’s in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____