Text mit Token versehen
Du möchtest ein bereits trainiertes Modell von Hugging Face nutzen und es mit den Daten deines Supportteams abstimmen, um Interaktionen nach dem Abwanderungsrisiko zu klassifizieren. Das hilft dem Team, Prioritäten zu setzen, was zuerst angegangen werden muss und wie es angegangen werden soll, damit es proaktiv handeln kann.
Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text tokenisierst.
Die Daten AutoTokenizer
und AutoModelForSequenceClassification
wurden für dich geladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs in Python
Anleitung zur Übung
- Lade das vortrainierte Modell und den Tokenizer, um die Feinabstimmung vorzubereiten.
- Tokenisiere sowohl die
train_data["interaction"]
als auch dietest_data["interaction"]
und ermögliche das Auffüllen und Abschneiden von Sequenzen.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)