Entraîner Naive Bayes avec sélection de caractéristiques
Vous allez maintenant relancer le modèle de classification de texte Naive Bayes utilisé à la fin du chapitre 3, en utilisant nos choix de sélection de l’exercice précédent : les colonnes title et category_desc du jeu de données volunteer.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Utilisez
train_test_split()sur le vecteur de textefiltered_text, les étiquettesy(qui correspondent aux étiquettescategory_desc), et passez l’ensembleyau paramètrestratify, car la distribution des classes est déséquilibrée. - Ajustez le modèle Naive Bayes
nbsurX_trainety_train. - Calculez la précision sur le jeu de test de
nb.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the dataset according to the class distribution of category_desc
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, stratify=____, random_state=42)
# Fit the model to the training data
nb.____
# Print out the model's accuracy
print(nb.____)