CommencerCommencer gratuitement

Tokenisation du texte

Vous souhaitez exploiter un modèle pré-entraîné de Hugging Face et l'affiner avec les données de l'équipe d'assistance de votre entreprise pour aider à classer les interactions en fonction du risque de désabonnement. Cela aidera l'équipe à hiérarchiser les questions à traiter en premier lieu et la manière de les traiter, ce qui la rendra plus proactive.

Préparez les données de formation et de test en vue d'un réglage fin en symbolisant le texte.

Les données AutoTokenizer et AutoModelForSequenceClassification ont été chargées pour vous.

Cet exercice fait partie du cours

Introduction aux LLM en Python

Afficher le cours

Instructions

  • Chargez le modèle pré-entraîné et le tokenizer en vue d'un réglage fin.
  • Tokéniser à la fois train_data["interaction"] et test_data["interaction"], ce qui permet le remplissage et la troncature de la séquence.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Modifier et exécuter le code