Hoch korrelierte Features herausfiltern

Du automatisierst das Entfernen von hoch korrelierten Features im numerischen ANSUR-Datensatz. Du berechnest die Korrelationsmatrix und filterst Spalten heraus, deren Korrelationskoeffizient größer als 0,95 oder kleiner als -0,95 ist.

Da jeder Korrelationskoeffizient in der Matrix zweimal vorkommt (Korrelation von A mit B entspricht der Korrelation von B mit A), solltest du die Hälfte der Korrelationsmatrix ignorieren, damit nur eines der beiden korrelierten Features entfernt wird. Nutze dafür einen Masken-Trick.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Übungsanweisungen

Berechne die Korrelationsmatrix von ansur_df und bilde den Absolutwert dieser Matrix.
Erzeuge eine boolesche Maske mit True-Werten im oberen rechten Dreieck und wende sie auf die Korrelationsmatrix an.
Setze den Korrelationsschwellenwert auf 0.95.
Entferne alle in to_drop aufgeführten Spalten aus dem DataFrame.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Calculate the correlation matrix and take the absolute value
corr_df = ansur_df.____().____()

# Create a True/False mask and apply it
mask = np.____(np.____(corr_df, dtype=____))
tri_df = corr_df.____(mask)

# List column names of highly correlated features (r > 0.95)
to_drop = [c for c in tri_df.columns if any(tri_df[c] >  ____)]

# Drop the features in the to_drop list
reduced_df = ansur_df.____(____, axis=1)

print(f"The reduced_df DataFrame has {reduced_df.shape[1]} columns.")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Du lernst das Konzept der Dimensionsreduktion kennen und erfährst, wann und warum sie wichtig ist. Du lernst den Unterschied zwischen Feature-Auswahl und Feature-Extraktion und wendest beide Techniken zur Datenexploration an. Das Kapitel endet mit einer Lektion zu t-SNE, einer leistungsstarken Feature-Extraktionstechnik, mit der du einen hochdimensionalen Datensatz visualisieren kannst.

Exercise 1: Einführung Exercise 2: Die Anzahl der Dimensionen in einem Datensatz bestimmen Exercise 3: Features ohne Varianz entfernen Exercise 4: Feature Selection vs. Feature Extraction Exercise 5: Redundante Merkmale visuell erkennen Exercise 6: Vorteil der Feature Selection Exercise 7: t-SNE-Visualisierung hochdimensionaler Daten Exercise 8: t-SNE-Intuition Exercise 9: t-SNE auf die ANSUR-Daten anwenden Exercise 10: t-SNE-Visualisierung der Dimensionalität

In diesem ersten von zwei Kapiteln zur Feature-Auswahl lernst du den Fluch der Dimensionalität kennen und wie dir Dimensionsreduktion hilft, ihn zu überwinden. Du wirst verschiedene Techniken kennenlernen, um Features zu erkennen und zu entfernen, die dem Datensatz wenig Mehrwert bringen – sei es wegen geringer Varianz, zu vieler fehlender Werte oder starker Korrelationen mit anderen Features.

Exercise 1: Der Fluch der Dimensionalität Exercise 2: Train-Test-Split Exercise 3: Modell trainieren und testen Exercise 4: Accuracy nach Dimensionsreduktion Exercise 5: Features mit fehlenden Werten oder geringer Varianz Exercise 6: Eine gute Varianzschwelle finden Exercise 7: Merkmale mit geringer Varianz Exercise 8: Features mit vielen fehlenden Werten entfernen Exercise 9: Paarweise Korrelation Exercise 10: Intuition zur Korrelation Exercise 11: Die Korrelationsmatrix untersuchen Exercise 12: Die Korrelationsmatrix visualisieren Exercise 13: Stark korrelierte Features entfernen Exercise 14: Hoch korrelierte Features herausfiltern

Aktuelle Übung

Exercise 15: Kernenergie und Pool-Ertrinkungen

In diesem zweiten Kapitel zur Feature-Auswahl lernst du, wie Modelle dir helfen können, die wichtigsten Features in einem Datensatz zur Vorhersage eines bestimmten Ziel-Features zu finden. In der abschließenden Lektion dieses Kapitels kombinierst du die Empfehlungen mehrerer unterschiedlicher Modelle, um zu entscheiden, welche Features es wert sind, beibehalten zu werden.

Exercise 1: Features für die Modellleistung auswählen Exercise 2: Einen Diabetes-Klassifikator bauen Exercise 3: Manuelle rekursive Merkmalselimination Exercise 4: Automatisches rekursives Feature Elimination Exercise 5: Baumbasierte Feature-Auswahl Exercise 6: Ein Random-Forest-Modell erstellen Exercise 7: Random Forest zur Feature-Auswahl Exercise 8: Rekursive Merkmalseliminierung mit Random Forests Exercise 9: Regularisierte lineare Regression Exercise 10: Einen LASSO-Regressor erstellen Exercise 11: Ergebnisse des Lasso-Modells Exercise 12: Anpassung der Regularisierungsstärke Exercise 13: Feature-Selektoren kombinieren Exercise 14: Einen LassoCV-Regressor erstellen Exercise 15: Ensemble-Modelle für zusätzliche Stimmen Exercise 16: Kombinieren von 3 Feature-Selektoren

Dieses Kapitel ist ein Deep Dive in den am häufigsten verwendeten Algorithmus zur Dimensionsreduktion: die Principal Component Analysis (PCA). Du entwickelst ein Verständnis dafür, wie und warum dieser Algorithmus so mächtig ist, und wendest ihn sowohl zur Datenexploration als auch zur Datenvorverarbeitung in einer Modellierungspipeline an. Zum Abschluss gibt es einen coolen Use Case zur Bildkomprimierung.

Exercise 1: Feature-Extraktion Exercise 2: Manuelle Merkmalsextraktion I Exercise 3: Manuelle Merkmalsextraktion II Exercise 4: Intuition zu Hauptkomponenten Exercise 5: Hauptkomponentenanalyse Exercise 6: Hauptkomponenten berechnen Exercise 7: PCA auf einem größeren Datensatz Exercise 8: Durch PCA erklärte Varianz Exercise 9: Anwendungen von PCA Exercise 10: Die Komponenten verstehen Exercise 11: PCA zur Merkmalsexploration Exercise 12: PCA in einer Modell-Pipeline Exercise 13: Auswahl der Hauptkomponenten Exercise 14: Auswahl des zu behaltenden Varianzanteils Exercise 15: Auswahl der Anzahl an Komponenten Exercise 16: PCA zur Bildkomprimierung Exercise 17: Glückwunsch!