Sélectionner les caractéristiques pertinentes

Dans cet exercice, vous allez identifier les colonnes redondantes dans le jeu de données volunteer, puis effectuer une sélection de caractéristiques pour obtenir un DataFrame ne contenant que les variables pertinentes.

Par exemple, si vous explorez volunteer dans la console, vous verrez trois variables liées à la localisation : locality, region et postalcode. Elles contiennent des informations apparentées, il est donc logique de n’en conserver qu’une seule.

Prenez le temps d’examiner les variables de volunteer dans la console et essayez d’identifier celles qui sont redondantes.

Cet exercice fait partie du cours

Prétraitement pour le Machine Learning en Python

Afficher le cours

Instructions

Créez une liste des noms de colonnes redondantes et stockez-la dans la variable to_drop :
- Parmi toutes les variables liées à la localisation, ne gardez que postalcode.
- Les variables passées par un processus d’ingénierie des caractéristiques sont également redondantes.
Supprimez du jeu de données les colonnes de la liste to_drop.
Affichez le .head() de volunteer_subset pour voir les colonnes retenues.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)

Modifier et exécuter le code