CommencerCommencer gratuitement

Modéliser le jeu de données sur les OVNI, partie 2

Pour finir, vous allez entraîner un modèle à partir du vecteur texte que nous avons créé, desc_tfidf, en utilisant la liste filtered_words pour produire un vecteur de texte filtré. Voyons si vous pouvez prédire le type de l’observation à partir du texte. Vous utiliserez pour cela un modèle de Naive Bayes.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

  • Filtrez le vecteur desc_tfidf en passant une liste de filtered_words dans l’index.
  • Séparez les variables explicatives filtered_text et y, en garantissant une répartition égale des classes dans les ensembles d’entraînement et de test ; utilisez random_state à 42.
  • Utilisez .fit() du modèle nb pour ajuster X_train et y_train.
  • Affichez la valeur de .score() du modèle nb sur les ensembles X_test et y_test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Use the list of filtered words we created to filter the text vector
filtered_text = ____[:, list(____)]

# Split the X and y sets using train_test_split, setting stratify=y 
X_train, X_test, y_train, y_test = ____(____.toarray(), ____, ____, random_state=42)

# Fit nb to the training sets
____

# Print the score of nb on the test sets
____
Modifier et exécuter le code