Cartographie de la tokenisation
Vous souhaitez maintenant tester un contrôle accru sur la tokenisation et essayer de tokeniser les données par lignes ou par lots. Cela vous fournira également un résultat sous forme d'objet DataSet, dont vous aurez besoin pour l'entraînement.
Le tokenizer a été chargé pour vous, ainsi que les données disponibles sous les noms train_data et test_data.
Cet exercice fait partie du cours
Introduction aux LLM en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____