CommencerCommencez gratuitement

Cartographie de la tokenisation

Vous souhaitez maintenant tester un contrôle accru sur la tokenisation et essayer de tokeniser les données par lignes ou par lots. Cela vous fournira également un résultat sous forme d'objet DataSet, dont vous aurez besoin pour l'entraînement.

Le tokenizer a été chargé pour vous, ainsi que les données disponibles sous les noms train_data et test_data.

Cet exercice fait partie du cours

<cours>Introduction aux LLM en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Modifier et exécuter le code