Modéliser le jeu de données sur les OVNI, partie 2
Pour finir, vous allez entraîner un modèle à partir du vecteur texte que nous avons créé, desc_tfidf, en utilisant la liste filtered_words pour produire un vecteur de texte filtré. Voyons si vous pouvez prédire le type de l’observation à partir du texte. Vous utiliserez pour cela un modèle de Naive Bayes.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Filtrez le vecteur
desc_tfidfen passant une liste defiltered_wordsdans l’index. - Séparez les variables explicatives
filtered_textety, en garantissant une répartition égale des classes dans les ensembles d’entraînement et de test ; utilisezrandom_stateà42. - Utilisez
.fit()du modèlenbpour ajusterX_trainety_train. - Affichez la valeur de
.score()du modèlenbsur les ensemblesX_testety_test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]
# Split the X and y sets using train_test_split, setting stratify=y
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)
# Fit nb to the training sets
____
# Print the score of nb on the test sets
____