Aan de slagGa gratis aan de slag

Tekstclassificatie met tf/idf-vectoren

Nu je de kolom title van de volunteer-gegevensset hebt omgezet in tf/idf-vectoren, ga je die vectoren gebruiken om de kolom category_desc te voorspellen.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Splits de text_tfidf-vector en de doelvariabele y in trainings- en testsets. Stel de parameter stratify gelijk aan y, omdat de klassenverdeling ongelijk is. Let op: we moeten de methode .toarray() aanroepen op de tf/idf-vector om deze in het juiste formaat voor scikit-learn te krijgen.
  • Fit de gegevens X_train en y_train op het Naive Bayes-model nb.
  • Print de nauwkeurigheid op de testset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))
Code bewerken en uitvoeren