Modéliser le jeu de données sur les OVNI, partie 2

Pour finir, vous allez entraîner un modèle à partir du vecteur texte que nous avons créé, desc_tfidf, en utilisant la liste filtered_words pour produire un vecteur de texte filtré. Voyons si vous pouvez prédire le type de l’observation à partir du texte. Vous utiliserez pour cela un modèle de Naive Bayes.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

Filtrez le vecteur desc_tfidf en passant une liste de filtered_words dans l’index.
Séparez les variables explicatives filtered_text et y, en garantissant une répartition égale des classes dans les ensembles d’entraînement et de test ; utilisez random_state à 42.
Utilisez .fit() du modèle nb pour ajuster X_train et y_train.
Affichez la valeur de .score() du modèle nb sur les ensembles X_test et y_test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____

Modifier et exécuter le code