Classification de texte avec des vecteurs tf/idf
Maintenant que vous avez encodé la colonne title du jeu de données volunteer en vecteurs tf/idf, vous allez utiliser ces vecteurs pour prédire la colonne category_desc.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Scindez le vecteur
text_tfidfet la variable cibleyen ensembles d’entraînement et de test, en définissant le paramètrestratifyày, car la répartition des classes est déséquilibrée. Remarquez que nous devons exécuter la méthode.toarray()sur le vecteur tf/idf afin d’obtenir le bon format pour scikit-learn. - Ajustez les données
X_trainety_trainau modèle Naive Bayes,nb. - Affichez la précision sur l’ensemble de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)
# Fit the model to the training data
nb.____(____, ____)
# Print out the model's accuracy
print(nb.____(____, ____))