Textklassifikation mit tf/idf-Vektoren
Nachdem du die Spalte title des volunteer-Datensatzes in tf/idf-Vektoren codiert hast, verwendest du diese Vektoren, um die Spalte category_desc vorherzusagen.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Teile den
text_tfidf-Vektor und die Zielvariableyin Trainings- und Testdaten auf und setze den Parameterstratifyaufy, da die Klassenverteilung unausgewogen ist. Beachte, dass wir die Methode.toarray()auf den tf/idf-Vektor anwenden müssen, damit er im richtigen Format für scikit-learn vorliegt. - Fitte die Daten
X_trainundy_trainan das Naive-Bayes-Modellnb. - Gib die Genauigkeit auf dem Testsatz aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))