Aan de slagBegin gratis

Tokenisatie mappen

Je wilt nu meer controle krijgen over de tokenisatie en proberen de gegevens per rij of in batches te tokeniseren. Dit levert ook een DataSet-object op, wat je nodig hebt voor training.

De tokenizer is voor je geladen, samen met de data als train_data en test_data.

Deze oefening maakt deel uit van de cursus

Introductie tot LLM’s in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Code bewerken en uitvoeren