Tekstclassificatie met tf/idf-vectoren
Nu je de kolom title van de volunteer-gegevensset hebt omgezet in tf/idf-vectoren, ga je die vectoren gebruiken om de kolom category_desc te voorspellen.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Splits de
text_tfidf-vector en de doelvariabeleyin trainings- en testsets. Stel de parameterstratifygelijk aany, omdat de klassenverdeling ongelijk is. Let op: we moeten de methode.toarray()aanroepen op de tf/idf-vector om deze in het juiste formaat voor scikit-learn te krijgen. - Fit de gegevens
X_traineny_trainop het Naive Bayes-modelnb. - Print de nauwkeurigheid op de testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))