Cartographie de la tokénisation
Vous souhaitez maintenant tester un contrôle plus poussé de la tokenisation et essayer de tokeniser les données par lignes ou par lots. Vous obtiendrez également un résultat qui est un objet DataSet, dont vous aurez besoin pour la formation.
Le site tokenizer
a été chargé pour vous avec les données train_data
et test_data
.
Cet exercice fait partie du cours
Introduction aux LLM en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____