Tokenisation de texte
Vous souhaitez exploiter un modèle pré-entraîné de Hugging Face et l'ajuster avec les données de votre équipe d'assistance afin de classer les interactions en fonction du risque de perte de clientèle. Cela aidera l'équipe à établir les priorités quant aux problèmes à traiter en premier lieu et à la manière de les traiter, ce qui la rendra plus proactive.
Préparez les données d'entraînement et de test pour l’affinage en tokenisant le texte.
Les données AutoTokenizer et AutoModelForSequenceClassification ont été chargées pour vous.
Cet exercice fait partie du cours
Introduction aux LLM en Python
Instructions
- Chargez le modèle pré-entraîné et le tokenizer en vue de l’affinage.
- Veuillez tokeniser à la fois
train_data["interaction"]ettest_data["interaction"], en activant le remplissage et la troncature de séquence.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)