Text in Tokens aufteilen
Du willst ein vortrainiertes Modell von Hugging Face nutzen und es mit Daten von dem Supportteam deines Unternehmens fein abstimmen, um Interaktionen je nach Abwanderungsrisiko besser zu klassifizieren. Das hilft dem Team dabei, Prioritäten zu setzen, was zuerst wie angegangen werden sollte und macht es proaktiver.
Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text in Tokens aufteilst.
Die Daten AutoTokenizer und AutoModelForSequenceClassification wurden für dich bereits geladen.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in LLMs mit Python</Kurs>Übungsanweisungen
- Lade das vortrainierte Modell und den Tokenizer, um alles für die Feinabstimmung vorzubereiten.
- Tokenisiere
train_data["interaction"]undtest_data["interaction"]. Aktiviere dabei das Padding und kürzere Sequenzen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)