Aan de slagBegin gratis

Tekst tokenizen

Je wilt een voorgetraind model van Hugging Face gebruiken en het fine-tunen met data van het supportteam van je bedrijf om interacties te classificeren op basis van het risico op churn. Zo kan het team beter bepalen wat eerst aangepakt moet worden en hoe, waardoor ze proactiever kunnen werken.

Bereid de trainings- en testdata voor op fine-tuning door de tekst te tokenizen.

De AutoTokenizer en AutoModelForSequenceClassification zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Introductie tot LLM’s in Python

Bekijk cursus

Oefeninstructies

  • Laad het voorgetrainde model en de tokenizer ter voorbereiding op fine-tuning.
  • Tokenize zowel train_data["interaction"] als test_data["interaction"], met padding en sequentietruncatie ingeschakeld.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Code bewerken en uitvoeren