1. Apprendre
  2. /
  3. Cours
  4. /
  5. Introduction aux LLM avec Python

Connected

Exercice

Tokenisation du texte

Vous souhaitez exploiter un modèle préentraîné de Hugging Face et l'adapter avec des données de l'équipe de soutien de votre entreprise afin d'aider à classer les interactions selon le risque de désabonnement. Cela aidera l'équipe à prioriser ce qu'il faut traiter en premier et comment le faire, pour être plus proactive.

Préparez les données d'entraînement et de test pour l'ajustement fin en tokenisant le texte.

Les objets AutoTokenizer et AutoModelForSequenceClassification ont été chargés pour vous.

Instructions

100 XP
  • Chargez le modèle préentraîné et le tokenizer en prévision de l'ajustement fin.
  • Tokenisez à la fois train_data["interaction"] et test_data["interaction"], en activant le remplissage (padding) et la troncature des séquences.