Tekstclassificatie met tf/idf-vectoren

Nu je de kolom title van de volunteer-gegevensset hebt omgezet in tf/idf-vectoren, ga je die vectoren gebruiken om de kolom category_desc te voorspellen.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Bekijk cursus

Oefeninstructies

Splits de text_tfidf-vector en de doelvariabele y in trainings- en testsets. Stel de parameter stratify gelijk aan y, omdat de klassenverdeling ongelijk is. Let op: we moeten de methode .toarray() aanroepen op de tf/idf-vector om deze in het juiste formaat voor scikit-learn te krijgen.
Fit de gegevens X_train en y_train op het Naive Bayes-model nb.
Print de nauwkeurigheid op de testset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))

Code bewerken en uitvoeren