Tekst tokenizen
Je wilt een voorgetraind model van Hugging Face gebruiken en het fine-tunen met data van het supportteam van je bedrijf om interacties te classificeren op basis van het risico op churn. Zo kan het team beter bepalen wat eerst aangepakt moet worden en hoe, waardoor ze proactiever kunnen werken.
Bereid de trainings- en testdata voor op fine-tuning door de tekst te tokenizen.
De AutoTokenizer en AutoModelForSequenceClassification zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
Introductie tot LLM’s in Python
Oefeninstructies
- Laad het voorgetrainde model en de tokenizer ter voorbereiding op fine-tuning.
- Tokenize zowel
train_data["interaction"]alstest_data["interaction"], met padding en sequentietruncatie ingeschakeld.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)