Text in Tokens aufteilen
Du willst ein vortrainiertes Modell von Hugging Face nutzen und es mit Daten von dem Supportteam deines Unternehmens fein abstimmen, um Interaktionen je nach Abwanderungsrisiko besser zu klassifizieren. Das hilft dem Team dabei, Prioritäten zu setzen, was zuerst wie angegangen werden sollte und macht es proaktiver.
Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text in Tokens aufteilst.
Die Daten AutoTokenizer und AutoModelForSequenceClassification wurden für dich bereits geladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs mit Python
Anleitung zur Übung
- Lade das vortrainierte Modell und den Tokenizer, um alles für die Feinabstimmung vorzubereiten.
- Tokenisiere
train_data["interaction"]undtest_data["interaction"]. Aktiviere dabei das Padding und kürzere Sequenzen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)