Einen Diabetes-Klassifikator bauen

Du verwendest den Pima-Indians-Diabetes-Datensatz, um mit logistischer Regression vorherzusagen, ob eine Person Diabetes hat. In diesem Datensatz gibt es 8 Merkmale und ein Ziel. Die Daten wurden in Trainings- und Testmenge aufgeteilt und für dich als X_train, y_train, X_test und y_test vorab geladen.

Eine Instanz von StandardScaler() wurde als scaler und eine von LogisticRegression() als lr vordefiniert.

Diese Übung ist Teil des Kurses

Dimensionsreduktion in Python

Anleitung zur Übung

Fitte den Scaler auf die Trainingsmerkmale und transformiere diese Merkmale in einem Schritt.
Fitte das logistische Regressionsmodell auf die skalierten Trainingsdaten.
Skaliere die Testmerkmale.
Sage die Präsenz von Diabetes auf dem skalierten Testset voraus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit the scaler on the training features and transform these in one go
X_train_std = scaler.____(____)

# Fit the logistic regression model on the scaled training data
lr.____(____, ____)

# Scale the test features
X_test_std = scaler.____(____)

# Predict diabetes presence on the scaled test set
y_pred = lr.____(____)

# Prints accuracy metrics and feature coefficients
print(f"{accuracy_score(y_test, y_pred):.1%} accuracy on test set.")
print(dict(zip(X.columns, abs(lr.coef_[0]).round(2))))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Dimensionsreduktion in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Du lernst das Konzept der Dimensionsreduktion kennen und erfährst, wann und warum sie wichtig ist. Du lernst den Unterschied zwischen Feature-Auswahl und Feature-Extraktion und wendest beide Techniken zur Datenexploration an. Das Kapitel endet mit einer Lektion zu t-SNE, einer leistungsstarken Feature-Extraktionstechnik, mit der du einen hochdimensionalen Datensatz visualisieren kannst.

Exercise 1: Einführung Exercise 2: Die Anzahl der Dimensionen in einem Datensatz bestimmen Exercise 3: Features ohne Varianz entfernen Exercise 4: Feature Selection vs. Feature Extraction Exercise 5: Redundante Merkmale visuell erkennen Exercise 6: Vorteil der Feature Selection Exercise 7: t-SNE-Visualisierung hochdimensionaler Daten Exercise 8: t-SNE-Intuition Exercise 9: t-SNE auf die ANSUR-Daten anwenden Exercise 10: t-SNE-Visualisierung der Dimensionalität

In diesem ersten von zwei Kapiteln zur Feature-Auswahl lernst du den Fluch der Dimensionalität kennen und wie dir Dimensionsreduktion hilft, ihn zu überwinden. Du wirst verschiedene Techniken kennenlernen, um Features zu erkennen und zu entfernen, die dem Datensatz wenig Mehrwert bringen – sei es wegen geringer Varianz, zu vieler fehlender Werte oder starker Korrelationen mit anderen Features.

Exercise 1: Der Fluch der Dimensionalität Exercise 2: Train-Test-Split Exercise 3: Modell trainieren und testen Exercise 4: Accuracy nach Dimensionsreduktion Exercise 5: Features mit fehlenden Werten oder geringer Varianz Exercise 6: Eine gute Varianzschwelle finden Exercise 7: Merkmale mit geringer Varianz Exercise 8: Features mit vielen fehlenden Werten entfernen Exercise 9: Paarweise Korrelation Exercise 10: Intuition zur Korrelation Exercise 11: Die Korrelationsmatrix untersuchen Exercise 12: Die Korrelationsmatrix visualisieren Exercise 13: Stark korrelierte Features entfernen Exercise 14: Hoch korrelierte Features herausfiltern Exercise 15: Kernenergie und Pool-Ertrinkungen

In diesem zweiten Kapitel zur Feature-Auswahl lernst du, wie Modelle dir helfen können, die wichtigsten Features in einem Datensatz zur Vorhersage eines bestimmten Ziel-Features zu finden. In der abschließenden Lektion dieses Kapitels kombinierst du die Empfehlungen mehrerer unterschiedlicher Modelle, um zu entscheiden, welche Features es wert sind, beibehalten zu werden.

Exercise 1: Features für die Modellleistung auswählen Exercise 2: Einen Diabetes-Klassifikator bauen

Aktuelle Übung

Exercise 3: Manuelle rekursive Merkmalselimination Exercise 4: Automatisches rekursives Feature Elimination Exercise 5: Baumbasierte Feature-Auswahl Exercise 6: Ein Random-Forest-Modell erstellen Exercise 7: Random Forest zur Feature-Auswahl Exercise 8: Rekursive Merkmalseliminierung mit Random Forests Exercise 9: Regularisierte lineare Regression Exercise 10: Einen LASSO-Regressor erstellen Exercise 11: Ergebnisse des Lasso-Modells Exercise 12: Anpassung der Regularisierungsstärke Exercise 13: Feature-Selektoren kombinieren Exercise 14: Einen LassoCV-Regressor erstellen Exercise 15: Ensemble-Modelle für zusätzliche Stimmen Exercise 16: Kombinieren von 3 Feature-Selektoren

Dieses Kapitel ist ein Deep Dive in den am häufigsten verwendeten Algorithmus zur Dimensionsreduktion: die Principal Component Analysis (PCA). Du entwickelst ein Verständnis dafür, wie und warum dieser Algorithmus so mächtig ist, und wendest ihn sowohl zur Datenexploration als auch zur Datenvorverarbeitung in einer Modellierungspipeline an. Zum Abschluss gibt es einen coolen Use Case zur Bildkomprimierung.

Exercise 1: Feature-Extraktion Exercise 2: Manuelle Merkmalsextraktion I Exercise 3: Manuelle Merkmalsextraktion II Exercise 4: Intuition zu Hauptkomponenten Exercise 5: Hauptkomponentenanalyse Exercise 6: Hauptkomponenten berechnen Exercise 7: PCA auf einem größeren Datensatz Exercise 8: Durch PCA erklärte Varianz Exercise 9: Anwendungen von PCA Exercise 10: Die Komponenten verstehen Exercise 11: PCA zur Merkmalsexploration Exercise 12: PCA in einer Modell-Pipeline Exercise 13: Auswahl der Hauptkomponenten Exercise 14: Auswahl des zu behaltenden Varianzanteils Exercise 15: Auswahl der Anzahl an Komponenten Exercise 16: PCA zur Bildkomprimierung Exercise 17: Glückwunsch!