Erste SchritteKostenlos loslegen

Text mit Token versehen

Du möchtest ein bereits trainiertes Modell von Hugging Face nutzen und es mit den Daten deines Supportteams abstimmen, um Interaktionen nach dem Abwanderungsrisiko zu klassifizieren. Das hilft dem Team, Prioritäten zu setzen, was zuerst angegangen werden muss und wie es angegangen werden soll, damit es proaktiv handeln kann.

Bereite die Trainings- und Testdaten für die Feinabstimmung vor, indem du den Text tokenisierst.

Die Daten AutoTokenizer und AutoModelForSequenceClassification wurden für dich geladen.

Diese Übung ist Teil des Kurses

Einführung in LLMs in Python

Kurs anzeigen

Anleitung zur Übung

  • Lade das vortrainierte Modell und den Tokenizer, um die Feinabstimmung vorzubereiten.
  • Tokenisiere sowohl die train_data["interaction"] als auch die test_data["interaction"] und ermögliche das Auffüllen und Abschneiden von Sequenzen.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Bearbeiten und Ausführen von Code