Aan de slagGa gratis aan de slag

Tekst tokenizen

Je wilt een voorgetraind model van Hugging Face gebruiken en het fine-tunen met data van het supportteam van je bedrijf om interacties te classificeren op basis van het risico op churn. Zo kan het team beter bepalen wat eerst aangepakt moet worden en hoe, waardoor ze proactiever kunnen werken.

Bereid de trainings- en testdata voor op fine-tuning door de tekst te tokenizen.

De AutoTokenizer en AutoModelForSequenceClassification zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Introductie tot LLM’s in Python

Cursus bekijken

Oefeninstructies

  • Laad het voorgetrainde model en de tokenizer ter voorbereiding op fine-tuning.
  • Tokenize zowel train_data["interaction"] als test_data["interaction"], met padding en sequentietruncatie ingeschakeld.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Code bewerken en uitvoeren