LoslegenKostenlos loslegen

Text in Tokens aufteilen

Du willst ein vortrainiertes Modell von Hugging Face nutzen und es mit Daten von dem Supportteam deines Unternehmens fein abstimmen, um Interaktionen je nach Abwanderungsrisiko besser zu klassifizieren. Das hilft dem Team dabei, Prioritäten zu setzen, was zuerst wie angegangen werden sollte und macht es proaktiver.

Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text in Tokens aufteilst.

Die Daten AutoTokenizer und AutoModelForSequenceClassification wurden für dich bereits geladen.

Diese Übung ist Teil des Kurses

Einführung in LLMs mit Python

Kurs anzeigen

Anleitung zur Übung

  • Lade das vortrainierte Modell und den Tokenizer, um alles für die Feinabstimmung vorzubereiten.
  • Tokenisiere train_data["interaction"] und test_data["interaction"]. Aktiviere dabei das Padding und kürzere Sequenzen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Code bearbeiten und ausführen