1. Apprendre
  2. /
  3. Cours
  4. /
  5. Introduction aux LLM avec Python

Connected

Exercice

Faire la correspondance de la tokenisation

Vous souhaitez maintenant tester un contrôle plus fin de la tokenisation et essayer de tokeniser les données par lignes ou par lots. Cela vous donnera aussi un résultat sous forme d'objet DataSet, dont vous aurez besoin pour l'entraînement.

Le tokenizer a été chargé pour vous, ainsi que les données sous train_data et test_data.

Instructions 1/2

undefined XP
  • 1
    • Complétez tokenize_function pour retourner des tenseurs tokenisés avec troncation des séquences et tokenisez train_data par lots.
  • 2
    • Appliquez tokenize_function à train_data et tokenisez ligne par ligne.