Relevante Features auswählen
In dieser Übung identifizierst du die redundanten Spalten im volunteer-Datensatz und führst eine Feature-Auswahl durch, um ein DataFrame mit den relevanten Features zurückzugeben.
Wenn du zum Beispiel den volunteer-Datensatz in der Konsole untersuchst, siehst du drei standortbezogene Features: locality, region und postalcode. Sie enthalten verwandte Informationen, daher ergibt es Sinn, nur eines der Features zu behalten.
Nimm dir etwas Zeit, um die Features von volunteer in der Konsole zu prüfen, und versuche, die redundanten Features zu identifizieren.
Diese Übung ist Teil des Kurses
Vorverarbeitung für Machine Learning in Python
Anleitung zur Übung
- Erstelle eine Liste redundanter Spaltennamen und speichere sie in der Variable
to_drop:- Von allen standortbezogenen Features behalte nur
postalcode. - Features, die Feature-Engineering durchlaufen haben, sind ebenfalls redundant.
- Von allen standortbezogenen Features behalte nur
- Entferne die Spalten in der Liste
to_dropaus dem Datensatz. - Gib die
.head()vonvolunteer_subsetaus, um die ausgewählten Spalten zu sehen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)