CommencerCommencer gratuitement

Cartographie de la tokénisation

Vous souhaitez maintenant tester un contrôle plus poussé de la tokenisation et essayer de tokeniser les données par lignes ou par lots. Vous obtiendrez également un résultat qui est un objet DataSet, dont vous aurez besoin pour la formation.

Le site tokenizer a été chargé pour vous avec les données train_data et test_data.

Cet exercice fait partie du cours

Introduction aux LLM en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Modifier et exécuter le code