Textklassifikation mit tf/idf-Vektoren

Nachdem du die Spalte title des volunteer-Datensatzes in tf/idf-Vektoren codiert hast, verwendest du diese Vektoren, um die Spalte category_desc vorherzusagen.

Diese Übung ist Teil des Kurses

<Kurs>Vorverarbeitung für Machine Learning in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Teile den text_tfidf-Vektor und die Zielvariable y in Trainings- und Testdaten auf und setze den Parameter stratify auf y, da die Klassenverteilung unausgewogen ist. Beachte, dass wir die Methode .toarray() auf den tf/idf-Vektor anwenden müssen, damit er im richtigen Format für scikit-learn vorliegt.
Fitte die Daten X_train und y_train an das Naive-Bayes-Modell nb.
Gib die Genauigkeit auf dem Testsatz aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))

Code bearbeiten und ausführen