Cartographie de la tokenisation
Vous souhaitez maintenant tester un contrôle accru sur la tokenisation et essayer de tokeniser les données par lignes ou par lots. Cela vous fournira également un résultat sous forme d'objet DataSet, dont vous aurez besoin pour l'entraînement.
Le tokenizer a été chargé pour vous, ainsi que les données disponibles sous les noms train_data et test_data.
Cet exercice fait partie du cours
<cours>Introduction aux LLM en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____