Aan de slagGa gratis aan de slag

Relevante features selecteren

In deze oefening identificeer je de overbodige kolommen in de volunteer-gegevensset en voer je featureselectie uit om een DataFrame met de relevante features terug te geven.

Als je bijvoorbeeld de volunteer-gegevensset in de console bekijkt, zie je drie features die met locatie te maken hebben: locality, region en postalcode. Ze bevatten gerelateerde informatie, dus het is logisch om slechts één van deze features te bewaren.

Neem even de tijd om de features van volunteer in de console te onderzoeken en probeer de overbodige features te identificeren.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak een lijst met overbodige kolomnamen en sla die op in de variabele to_drop:
    • Van alle locatiegerelateerde features houd je alleen postalcode over.
    • Features die door feature engineering zijn gegaan, zijn ook overbodig.
  • Verwijder de kolommen in de lijst to_drop uit de gegevensset.
  • Print de .head() van volunteer_subset om de geselecteerde kolommen te bekijken.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)
Code bewerken en uitvoeren