LoslegenKostenlos loslegen

Relevante Features auswählen

In dieser Übung identifizierst du die redundanten Spalten im volunteer-Datensatz und führst eine Feature-Auswahl durch, um ein DataFrame mit den relevanten Features zurückzugeben.

Wenn du zum Beispiel den volunteer-Datensatz in der Konsole untersuchst, siehst du drei standortbezogene Features: locality, region und postalcode. Sie enthalten verwandte Informationen, daher ergibt es Sinn, nur eines der Features zu behalten.

Nimm dir etwas Zeit, um die Features von volunteer in der Konsole zu prüfen, und versuche, die redundanten Features zu identifizieren.

Diese Übung ist Teil des Kurses

Vorverarbeitung für Machine Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine Liste redundanter Spaltennamen und speichere sie in der Variable to_drop:
    • Von allen standortbezogenen Features behalte nur postalcode.
    • Features, die Feature-Engineering durchlaufen haben, sind ebenfalls redundant.
  • Entferne die Spalten in der Liste to_drop aus dem Datensatz.
  • Gib die .head() von volunteer_subset aus, um die ausgewählten Spalten zu sehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)
Code bearbeiten und ausführen