Classification de texte avec des vecteurs tf/idf

Maintenant que vous avez encodé la colonne title du jeu de données volunteer en vecteurs tf/idf, vous allez utiliser ces vecteurs pour prédire la colonne category_desc.

Cet exercice fait partie du cours

<cours>Prétraitement pour le Machine Learning en Python</cours>

Voir le cours

Instructions de l’exercice

Scindez le vecteur text_tfidf et la variable cible y en ensembles d’entraînement et de test, en définissant le paramètre stratify à y, car la répartition des classes est déséquilibrée. Remarquez que nous devons exécuter la méthode .toarray() sur le vecteur tf/idf afin d’obtenir le bon format pour scikit-learn.
Ajustez les données X_train et y_train au modèle Naive Bayes, nb.
Affichez la précision sur l’ensemble de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Split the dataset according to the class distribution of category_desc
y = volunteer["category_desc"]
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____=____, random_state=42)

# Fit the model to the training data
nb.____(____, ____)

# Print out the model's accuracy
print(nb.____(____, ____))

Modifier et exécuter le code