LoslegenKostenlos starten

Text in Tokens aufteilen

Du willst ein vortrainiertes Modell von Hugging Face nutzen und es mit Daten von dem Supportteam deines Unternehmens fein abstimmen, um Interaktionen je nach Abwanderungsrisiko besser zu klassifizieren. Das hilft dem Team dabei, Prioritäten zu setzen, was zuerst wie angegangen werden sollte und macht es proaktiver.

Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text in Tokens aufteilst.

Die Daten AutoTokenizer und AutoModelForSequenceClassification wurden für dich bereits geladen.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in LLMs mit Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade das vortrainierte Modell und den Tokenizer, um alles für die Feinabstimmung vorzubereiten.
  • Tokenisiere train_data["interaction"] und test_data["interaction"]. Aktiviere dabei das Padding und kürzere Sequenzen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Code bearbeiten und ausführen