CommencerCommencer gratuitement

Tokenisation de texte

Vous souhaitez exploiter un modèle pré-entraîné de Hugging Face et l'ajuster avec les données de votre équipe d'assistance afin de classer les interactions en fonction du risque de perte de clientèle. Cela aidera l'équipe à établir les priorités quant aux problèmes à traiter en premier lieu et à la manière de les traiter, ce qui la rendra plus proactive.

Préparez les données d'entraînement et de test pour l’affinage en tokenisant le texte.

Les données AutoTokenizer et AutoModelForSequenceClassification ont été chargées pour vous.

Cet exercice fait partie du cours

Introduction aux LLM en Python

Afficher le cours

Instructions

  • Chargez le modèle pré-entraîné et le tokenizer en vue de l’affinage.
  • Veuillez tokeniser à la fois train_data["interaction"] et test_data["interaction"], en activant le remplissage et la troncature de séquence.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Modifier et exécuter le code