Relevante features selecteren
In deze oefening identificeer je de overbodige kolommen in de volunteer-gegevensset en voer je featureselectie uit om een DataFrame met de relevante features terug te geven.
Als je bijvoorbeeld de volunteer-gegevensset in de console bekijkt, zie je drie features die met locatie te maken hebben: locality, region en postalcode. Ze bevatten gerelateerde informatie, dus het is logisch om slechts één van deze features te bewaren.
Neem even de tijd om de features van volunteer in de console te onderzoeken en probeer de overbodige features te identificeren.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Maak een lijst met overbodige kolomnamen en sla die op in de variabele
to_drop:- Van alle locatiegerelateerde features houd je alleen
postalcodeover. - Features die door feature engineering zijn gegaan, zijn ook overbodig.
- Van alle locatiegerelateerde features houd je alleen
- Verwijder de kolommen in de lijst
to_dropuit de gegevensset. - Print de
.head()vanvolunteer_subsetom de geselecteerde kolommen te bekijken.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)