Sélectionner l’ensemble de données idéal

Il est temps de supprimer certaines variables inutiles dans le jeu de données ufo. Comme la colonne country a été encodée en country_enc, vous pouvez la conserver et supprimer les autres colonnes liées à la localisation : city, country, lat, long et state.

Vous avez créé les colonnes month et year, vous n’avez donc plus besoin de date ni de recorded. Vous avez également standardisé la colonne seconds en seconds_log, ce qui vous permet de supprimer seconds et minutes.

Vous avez vectorisé desc, vous pouvez donc la retirer. Pour l’instant, vous conservez type.

Vous pouvez aussi supprimer la colonne length_of_time, devenue superflue après l’extraction de minutes.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

Créez une liste de toutes les colonnes à supprimer, to_drop.
Supprimez ces colonnes de ufo.
Utilisez la fonction words_to_filter() que vous avez créée précédemment ; passez vocab, vec.vocabulary_, desc_tfidf, et conservez les 4 mots les plus fréquents comme dernier paramètre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Modifier et exécuter le code