Tokenisation du texte
Vous souhaitez exploiter un modèle pré-entraîné de Hugging Face et l'affiner avec les données de l'équipe d'assistance de votre entreprise pour aider à classer les interactions en fonction du risque de désabonnement. Cela aidera l'équipe à hiérarchiser les questions à traiter en premier lieu et la manière de les traiter, ce qui la rendra plus proactive.
Préparez les données de formation et de test en vue d'un réglage fin en symbolisant le texte.
Les données AutoTokenizer
et AutoModelForSequenceClassification
ont été chargées pour vous.
Cet exercice fait partie du cours
Introduction aux LLM en Python
Instructions
- Chargez le modèle pré-entraîné et le tokenizer en vue d'un réglage fin.
- Tokéniser à la fois
train_data["interaction"]
ettest_data["interaction"]
, ce qui permet le remplissage et la troncature de la séquence.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)