LoslegenKostenlos loslegen

Textklassifikation mit tf/idf-Vektoren

Nachdem du die Spalte title des volunteer-Datensatzes in tf/idf-Vektoren codiert hast, verwendest du diese Vektoren, um die Spalte category_desc vorherzusagen.

Diese Übung ist Teil des Kurses

Vorverarbeitung für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Teile den text_tfidf-Vektor und die Zielvariable y in Trainings- und Testdaten auf und setze den Parameter stratify auf y, da die Klassenverteilung unausgewogen ist. Beachte, dass wir die Methode .toarray() auf den tf/idf-Vektor anwenden müssen, damit er im richtigen Format für scikit-learn vorliegt.
  • Fitte die Daten X_train und y_train an das Naive-Bayes-Modell nb.
  • Gib die Genauigkeit auf dem Testsatz aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Code bearbeiten und ausführen