Sélectionner l’ensemble de données idéal
Il est temps de supprimer certaines variables inutiles dans le jeu de données ufo. Comme la colonne country a été encodée en country_enc, vous pouvez la conserver et supprimer les autres colonnes liées à la localisation : city, country, lat, long et state.
Vous avez créé les colonnes month et year, vous n’avez donc plus besoin de date ni de recorded. Vous avez également standardisé la colonne seconds en seconds_log, ce qui vous permet de supprimer seconds et minutes.
Vous avez vectorisé desc, vous pouvez donc la retirer. Pour l’instant, vous conservez type.
Vous pouvez aussi supprimer la colonne length_of_time, devenue superflue après l’extraction de minutes.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Créez une liste de toutes les colonnes à supprimer,
to_drop. - Supprimez ces colonnes de
ufo. - Utilisez la fonction
words_to_filter()que vous avez créée précédemment ; passezvocab,vec.vocabulary_,desc_tfidf, et conservez les4mots les plus fréquents comme dernier paramètre.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)