CommencerCommencer gratuitement

Cartographie de la tokenisation

Vous souhaitez maintenant tester un contrôle accru sur la tokenisation et essayer de tokeniser les données par lignes ou par lots. Cela vous fournira également un résultat sous forme d'objet DataSet, dont vous aurez besoin pour l'entraînement.

Le tokenizer a été chargé pour vous, ainsi que les données disponibles sous les noms train_data et test_data.

Cet exercice fait partie du cours

Introduction aux LLM en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Modifier et exécuter le code