Manuelle rekursive Merkmalselimination

Jetzt, da wir einen Diabetes-Klassifikator erstellt haben, schauen wir, ob wir die Anzahl der Merkmale verringern können, ohne die Modellgenauigkeit zu stark zu beeinträchtigen.

In der zweiten Codezeile werden die Merkmale aus dem ursprünglichen DataFrame ausgewählt. Passe diese Auswahl an.

Eine Instanz von StandardScaler() wurde als scaler und eine von LogisticRegression() als lr vordefiniert.

Alle benötigten Funktionen und Pakete wurden ebenfalls vorab geladen.

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Remove the feature with the lowest model coefficient
X = diabetes_df[['pregnant', 'glucose', 'diastolic', 'triceps', 'insulin', 'bmi', 'family', 'age']]

# Performs a 25-75% train test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

# Scales features and fits the logistic regression model
lr.fit(scaler.fit_transform(X_train), y_train)

# Calculates the accuracy on the test set and prints coefficients
acc = accuracy_score(y_test, lr.predict(scaler.transform(X_test)))
print(f"{acc:.1%} accuracy on test set.") 
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Dimensionsreduktion in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Du lernst das Konzept der Dimensionsreduktion kennen und erfährst, wann und warum sie wichtig ist. Du lernst den Unterschied zwischen Feature-Auswahl und Feature-Extraktion und wendest beide Techniken zur Datenexploration an. Das Kapitel endet mit einer Lektion zu t-SNE, einer leistungsstarken Feature-Extraktionstechnik, mit der du einen hochdimensionalen Datensatz visualisieren kannst.

Exercise 1: Einführung Exercise 2: Die Anzahl der Dimensionen in einem Datensatz bestimmen Exercise 3: Features ohne Varianz entfernen Exercise 4: Feature Selection vs. Feature Extraction Exercise 5: Redundante Merkmale visuell erkennen Exercise 6: Vorteil der Feature Selection Exercise 7: t-SNE-Visualisierung hochdimensionaler Daten Exercise 8: t-SNE-Intuition Exercise 9: t-SNE auf die ANSUR-Daten anwenden Exercise 10: t-SNE-Visualisierung der Dimensionalität

In diesem ersten von zwei Kapiteln zur Feature-Auswahl lernst du den Fluch der Dimensionalität kennen und wie dir Dimensionsreduktion hilft, ihn zu überwinden. Du wirst verschiedene Techniken kennenlernen, um Features zu erkennen und zu entfernen, die dem Datensatz wenig Mehrwert bringen – sei es wegen geringer Varianz, zu vieler fehlender Werte oder starker Korrelationen mit anderen Features.

Exercise 1: Der Fluch der Dimensionalität Exercise 2: Train-Test-Split Exercise 3: Modell trainieren und testen Exercise 4: Accuracy nach Dimensionsreduktion Exercise 5: Features mit fehlenden Werten oder geringer Varianz Exercise 6: Eine gute Varianzschwelle finden Exercise 7: Merkmale mit geringer Varianz Exercise 8: Features mit vielen fehlenden Werten entfernen Exercise 9: Paarweise Korrelation Exercise 10: Intuition zur Korrelation Exercise 11: Die Korrelationsmatrix untersuchen Exercise 12: Die Korrelationsmatrix visualisieren Exercise 13: Stark korrelierte Features entfernen Exercise 14: Hoch korrelierte Features herausfiltern Exercise 15: Kernenergie und Pool-Ertrinkungen

In diesem zweiten Kapitel zur Feature-Auswahl lernst du, wie Modelle dir helfen können, die wichtigsten Features in einem Datensatz zur Vorhersage eines bestimmten Ziel-Features zu finden. In der abschließenden Lektion dieses Kapitels kombinierst du die Empfehlungen mehrerer unterschiedlicher Modelle, um zu entscheiden, welche Features es wert sind, beibehalten zu werden.

Exercise 1: Features für die Modellleistung auswählen Exercise 2: Einen Diabetes-Klassifikator bauen Exercise 3: Manuelle rekursive Merkmalselimination

Aktuelle Übung

Exercise 4: Automatisches rekursives Feature Elimination Exercise 5: Baumbasierte Feature-Auswahl Exercise 6: Ein Random-Forest-Modell erstellen Exercise 7: Random Forest zur Feature-Auswahl Exercise 8: Rekursive Merkmalseliminierung mit Random Forests Exercise 9: Regularisierte lineare Regression Exercise 10: Einen LASSO-Regressor erstellen Exercise 11: Ergebnisse des Lasso-Modells Exercise 12: Anpassung der Regularisierungsstärke Exercise 13: Feature-Selektoren kombinieren Exercise 14: Einen LassoCV-Regressor erstellen Exercise 15: Ensemble-Modelle für zusätzliche Stimmen Exercise 16: Kombinieren von 3 Feature-Selektoren

Dieses Kapitel ist ein Deep Dive in den am häufigsten verwendeten Algorithmus zur Dimensionsreduktion: die Principal Component Analysis (PCA). Du entwickelst ein Verständnis dafür, wie und warum dieser Algorithmus so mächtig ist, und wendest ihn sowohl zur Datenexploration als auch zur Datenvorverarbeitung in einer Modellierungspipeline an. Zum Abschluss gibt es einen coolen Use Case zur Bildkomprimierung.

Exercise 1: Feature-Extraktion Exercise 2: Manuelle Merkmalsextraktion I Exercise 3: Manuelle Merkmalsextraktion II Exercise 4: Intuition zu Hauptkomponenten Exercise 5: Hauptkomponentenanalyse Exercise 6: Hauptkomponenten berechnen Exercise 7: PCA auf einem größeren Datensatz Exercise 8: Durch PCA erklärte Varianz Exercise 9: Anwendungen von PCA Exercise 10: Die Komponenten verstehen Exercise 11: PCA zur Merkmalsexploration Exercise 12: PCA in einer Modell-Pipeline Exercise 13: Auswahl der Hauptkomponenten Exercise 14: Auswahl des zu behaltenden Varianzanteils Exercise 15: Auswahl der Anzahl an Komponenten Exercise 16: PCA zur Bildkomprimierung Exercise 17: Glückwunsch!