1. Apprendre
  2. /
  3. Cours
  4. /
  5. Prétraitement pour le Machine Learning en Python

Connected

Exercice

Sélectionner les variables pertinentes

Dans cet exercice, vous allez repérer les colonnes redondantes dans l'ensemble de données volunteer, puis effectuer une sélection de variables pour obtenir un DataFrame ne contenant que les caractéristiques pertinentes.

Par exemple, si vous explorez volunteer dans la console, vous verrez trois variables liées à l'emplacement : locality, region et postalcode. Elles renferment des informations apparentées, donc il serait logique de n'en conserver qu'une seule.

Prenez un moment pour examiner les variables de volunteer dans la console et tentez d'identifier celles qui sont redondantes.

Instructions

100 XP
  • Créez une liste des noms de colonnes redondantes et enregistrez-la dans la variable to_drop :
    • Parmi toutes les variables liées à l'emplacement, ne gardez que postalcode.
    • Les variables ayant subi de l'ingénierie de caractéristiques sont aussi redondantes.
  • Supprimez du jeu de données les colonnes présentes dans la liste to_drop.
  • Affichez le .head() de volunteer_subset pour voir les colonnes sélectionnées.