Sélectionner les caractéristiques pertinentes
Dans cet exercice, vous allez identifier les colonnes redondantes dans le jeu de données volunteer, puis effectuer une sélection de caractéristiques pour obtenir un DataFrame ne contenant que les variables pertinentes.
Par exemple, si vous explorez volunteer dans la console, vous verrez trois variables liées à la localisation : locality, region et postalcode. Elles contiennent des informations apparentées, il est donc logique de n’en conserver qu’une seule.
Prenez le temps d’examiner les variables de volunteer dans la console et essayez d’identifier celles qui sont redondantes.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Créez une liste des noms de colonnes redondantes et stockez-la dans la variable
to_drop:- Parmi toutes les variables liées à la localisation, ne gardez que
postalcode. - Les variables passées par un processus d’ingénierie des caractéristiques sont également redondantes.
- Parmi toutes les variables liées à la localisation, ne gardez que
- Supprimez du jeu de données les colonnes de la liste
to_drop. - Affichez le
.head()devolunteer_subsetpour voir les colonnes retenues.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)